陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好 陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好
admin
2024-02-03 15:05:16
0


新智元报道

编辑:alan

【新智元导读】在软件工程顶会ESEC/FSE上,来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员发表了新的成果,使用LLM解决自动化定理证明问题。

Transformer的技能树是越来越厉害了。

来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员发表了一篇论文,利用大语言模型自动生成定理的完整证明。


论文地址:https://arxiv.org/pdf/2303.04910.pdf

这篇工作以Baldur(北欧神话中雷神Thor的兄弟)命名,首次证明了使用Transformer生成全证明是可能的,并且当为模型提供额外的上下文时,还可以改进模型先前的证明。

文章发表于2023年12月在旧金山举行的ESEC/FSE(ACM欧洲软件工程联合会议和软件工程基础研讨会)上,并获得了杰出论文奖(Distinguished Paper award)。


众所周知,软件存在bug(废话),这在一般应用程序或者网站上问题不大,但对于比如加密协议、医疗设备和航天飞机等关键系统背后的软件而言,必须确保没有错误。

——一般的代码审查和测试并不能给出这个保证,这需要形式验证(formal verification)。

对于formal verification,ScienceDirect给出的解释为:

the process of mathematically checking that the behavior of a system, described using a formal model, satisfies a given property, also described using a formal model

指的是从数学上检查,使用形式模型描述的系统行为,是否满足给定属性的过程。

简单来说就是,利用数学分析的方法,通过算法引擎建立模型,对待测设计的状态空间进行穷尽分析的验证。


形式化软件验证,对于软件工程师来说是最具挑战性的任务之一。例如CompCert,使用Coq交互式定理证明器验证的C编译器,是无处不在的GCC和LLVM等使用的唯一编译器。

然而,手动形式验证(编写证明)的成本却相当巨大,——C编译器的证明是编译器代码本身的三倍以上。

所以,形式验证本身是一项“劳动密集型”的任务,研究人员也在探索自动化的方法。

比如Coq和Isabelle等证明助手,通过训练一个模型来一次预测一个证明步骤,并使用模型搜索可能的证明空间。

而本文的Baldur首次在这个领域引入了大语言模型的能力,在自然语言文本和代码上训练,并在证明上进行微调,

Baldur可以一次就生成定理的完整证明,而不是一次一个步骤。


如上图所示,仅使用定理语句作为证明生成模型的输入,然后从模型中抽取证明尝试,并使用Isabelle执行证明检查。

如果Isabelle接受了证明尝试而没有错误,就说明证明成功;否则从证明生成模型中抽取另一个证明尝试。

Baldur在6336个Isabelle/HOL定理及其证明的基准上进行评估,从经验上证明了完整证明生成、修复和添加上下文的有效性。

另外,这个工具之所以叫Baldur,可能是因为当前最好的自动证明生成工具叫做Thor。

Thor的证明率更高(57%),它使用较小的语言模型结合搜索可能证明空间的方法预测证明的下一步,而Baldur的优势在于它能够生成完整的证明。


不过Thor和Baldur两兄弟也可以一起工作,这样可能把证明率提升到接近66%。

自动生成完整证明

Baldur由Google的大语言模型Minerva提供支持,Minerva在科学论文和包含数学表达式的网页上进行训练,并对有关证明和定理的数据进行了微调。

Baldur可以与定理证明助手Isabelle合作,Isabelle对证明结果进行检查。当给定一个定理陈述时,Baldur几乎在41%的时间内能够生成一个完整的证明。


为了进一步提高Baldur的性能,研究人员向模型提供了额外的上下文信息(比如其他定义、或理论文件中的定理陈述),这使证明率提高到47.5%。

这意味着Baldur能够获取上下文,并使用它来预测新的正确证明,——类似于程序员,当了解了相关方法和代码之后,他们更有可能修复程序中的错误。


下面举个例子(fun_sum_commute定理):


这个定理来自形式证明档案中一个名为多项式的项目。

当人工编写证明的时候,会区分两种情况:集合是有限的或者不是有限的:


所以,对于模型来说,输入是定理陈述,而目标输出是这个人工编写的证明。

Baldur认识到这里需要归纳,并应用了一种特殊的归纳法则,称为infinite_finite_induct,遵循与人类书面证明相同的总体方法,但更简洁。

而因为需要归纳,Isabelle使用的Sledgehammer默认无法证明这个定理。

训练

为了训练证明生成模型,研究人员构建了一个新的证明生成数据集。

现有数据集包含单个证明步骤的示例,每个训练示例包括证明状态(输入)和要应用的下一个证明步骤(目标)。

给定一个包含单个证明步骤的数据集,这里需要创建一个新数据集,以便训练模型一次预测整个证明。

研究人员从数据集中提取每个定理的证明步骤,并将它们连接起来以重建原始证明。

证明修复

还是以上面的fun_sum_commute为例,


Baldur首次生成的证明尝试,在证明检查器中失败。

Baldur试图应用归纳法,但未能首先将证明分解为两种情况(有限集与无限集)。Isabelle返回以下错误消息:

为了从这些字符串中派生出一个证明修复训练示例,这里将定理陈述、失败的证明尝试和错误消息连接起来作为输入,并使用正确的人工编写的证明作为目标。


上图详细介绍了训练数据的创建过程。

使用证明生成模型,针对原始训练集中的每个问题,对温度为0的证明进行采样。

使用校对助手,记录所有失败的校样及其错误消息,然后,继续构建新的证明修复训练集。

对于每个原始训练示例,将定理语句、证明生成模型生成的(不正确的)候选证明以及相应的错误消息连接起来,以获得新训练示例的输入序列。

添加上下文

在定理陈述之前添加理论文件的行,作为额外的上下文。比如下图这样:


Baldur中带有上下文的证明生成模型,可以利用这些附加信息。出现在fun_sum_commute定理语句中的字符串,在这个上下文中再次出现,因此围绕它们的附加信息可以帮助模型做出更好的预测。

上下文可以是陈述(定理、定义、证明),还可以是自然语言注释。

为了利用LLM的可用输入长度,研究人员首先从同一个理论文件中添加多达50个语句。

在训练过程中,首先对所有这些语句进行标记化,然后截断序列的左侧以适应输入长度。


上图展示了有上下文和无上下文的生成模型的证明成功率与证明尝试次数的关系图。我们可以看出,具有上下文的证明生成模型始终优于普通生成模型。


上图展示了不同尺寸和温度模型的已验证定理与推理成本之比。

我们可以看到生成模型的证明成功率,以及8B模型和62B模型的上下文与证明尝试次数的关系。

具有上下文的62B证明生成模型优于具有上下文的8B模型。

不过,作者在这里强调,由于这些实验的成本较高,他们也无法调整超参数,62B模型如果经过优化可能会表现得更好。

参考资料:

https://arxiv.org/pdf/2303.04910.pdf

相关内容

热门资讯

青海:“五一”假期推出60余场... 中新网西宁5月6日电 (潘雨洁)记者6日从青海省商务厅获悉,“五一”假期,青海省各级商务部门、金融机...
银行业竞争逻辑正在经历一场变革 证券时报记者 马传茂 步入低利率时代,银行业关于“规模情结”的讨论持续发酵。一个耐人寻味的现象是:银...
基本面与新技术共振,锂电新周期... 5月国内电池排产达172.4GWh,环比增8%,同比猛增65%。另一边,钠电逻辑迎来里程碑:宁德时代...
曾是OpenAI前董事会成员!... 快科技5月7日消息,据媒体报道,日前,马斯克起诉了他的两位OpenAI联合创始人——CEO萨姆·奥特...
监护仪警报后,我们在做什么 杨明明 河北医科大学第一医院 在医院的病房、急诊室和ICU,监护仪的“滴滴”警报声是最常见的声音。很...
原创 美... 美股三大指数昨晚(当地时间5月5日)集体收涨,标普500和纳斯达克双双再创历史新高。 最惊人的一幕发...
华泰证券:地产板块估值筑底、配... 华泰证券研报指出,深圳、广州、武汉、苏州、济南等核心城市相继出台楼市优化政策,从公积金放宽、以旧换新...
第四批全国中成药联盟采购开标 ... 4月30日,第四批全国中成药联盟采购(以下简称“全国联采”)在武汉开标产生拟中选结果。本次集采纳入2...
跟踪800自由现金流的ETF有... 随着A股市场从估值修复转向盈利驱动,投资者对企业"真金白银"创造能力的关注度显著提升。自由现金流策略...
金价强势反弹,投资者怎么操作? 经历持续阴跌后,黄金市场迎来一轮强势反弹行情。 5月6日,国际金价短暂震荡后强势拉升。截至记者发稿,...
A股5月“开门红” 两市成交额... 科创50日K线图   张大伟 制图 ◎记者 费天元 5月首个交易日,A股主要股指全线上攻,盘面热点延...
首发|又一个核聚变独角兽:星环... 投资界获悉,星环聚能完成5亿元人民币A+轮融资,投资方阵容依旧豪华:包括达晨财智、金浦投资、上海申能...
为何翻倍提高CPU市场展望?苏... 财联社5月7日讯(编辑 史正丞)随着超威半导体(AMD)的最新财报再度唤起市场对CPU需求周期的关注...
“1页纸”让欧美亚股市大涨,油... 新华社援引美国媒体5月6日报称道,两名美国官员及另外两名知情人士透露,白宫认为,与伊朗接近达成一份一...
拟上市企业股权激励的注意事项 在企业的发展进程中,拟上市企业的股权激励是一个至关重要的环节。它不仅能够吸引和留住核心人才,还能激发...
5月7日每日研选丨基本面与新技... 5月国内电池排产达172.4GWh,环比增8%,同比猛增65%。另一边,钠电逻辑迎来里程碑:宁德时代...
美股收盘:纳指、标普再创新高 ... 财联社5月7日讯(编辑 史正丞)昨夜今晨,随着AI相关资产接力暴涨,标普500指数和纳斯达克指数连续...
美联储古尔斯比就通胀与消费者行... 芝加哥联邦储备银行行长奥斯滕・古尔斯比对通胀形势发出谨慎警示:美国通胀不仅未能持续回落至美联储 2%...
原创 北... 实验室里长出的,不只是论文还有独角兽。 又是一年五四,北大迎来了128岁生日。 未名湖畔的故事讲了...