Claude 3再次登顶!化学专业一骑绝尘,全面碾压GPT-4 Claude 3再次登顶!化学专业一骑绝尘,全面碾压GPT-4
admin
2024-03-28 15:18:07
0


新智元报道

编辑:Mindy

【新智元导读】Claude 3在通用任务上是全球最强已经毋庸置疑。更令人惊叹的是,它在专业领域的表现,比如化学任务,也能远远领先GPT-4。

Claude 3的诞生又一次震惊了全世界。

Claude 3 Opus,Claude 3中最智能的模型,在大多数常见的人工智能系统评估基准测试中表现优异,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)等。


但在特定的专业领域,它的表现却是一个未知数。

比如化学,化学在药物发现和材料科学等领域发挥着至关重要的作用,但现有研究显示它们在化学任务上的性能令人沮丧。

指令微调让LLM完成化学任务成为可能

近日,一支来自OSU的团队构建了一个专门针对化学任务指令微调的数据集,命名为SMolInstruct。


论文地址:https://arxiv.org/pdf/2402.09391.pdf

该SMolInstruct测试集涵盖了14种任务,包括名称转换、属性预测、分子描述、分子生成、正向合成和逆向合成等,这些专业任务经过精心挑选,以建立坚实的化学基础。

它同时包含340万个不同的样本和160万个不同的分子,涵盖了各种大小、结构和性质的化合物,展示了广泛的化学知识覆盖范围。这些样本都经过严格的处理步骤,排除了有问题和低质量的样本。


然后,他们在SMolInstruct数据集上对四个开源LLM(Galactica、Llama 2、Code Llama和Mistral)进行微调,创建了一系列专门用于化学任务的LLM,称为LlaSMol。

论文中,主要将LlaSMol模型与两种类型的模型进行比较:

未在SMolInstruct上进行微调的LLM

SOTA任务特定模型

结果显示,LlaSMol在所有任务上都显著优于现有的LLM,包括GPT-4。

例如,将SMILES转换为分子式的准确率达到94.5%,而GPT-4仅为16.4%;对于逆合成任务,准确率达到32.9%,而GPT-4仅为0%,并接近最先进的任务特定模型SOTA。

这凸显了SMolInstruct数据集的有效性和微调的好处。


这个结果是合理的,虽然GPT-4很强大,但它毕竟是通用模型,很难直接和经过特定的任务及样本微调的LlaSMol去对抗。

但经过微调的LLM表现已经逼近非LLM的任务特定模型,还是展现了LLM的巨大潜力。

不仅如此,四个LlaSMol模型在性能上表现出显著差异,也强调出了基础模型对下游任务的重要影响。

Claude 3在专业化学领域仍旧领先

Claude 3一经推出,该团队便在SMolInstruct 该基准测试上对于Claude 3 Opus同样进行了实验。

虽然与LlaSMol还是有差距,但在大多数任务中,Claude 3的表现远远超过GPT-4。


虽然在其中的一个名称转换任务S2F中,也就是一个将用于表示分子结构的文本字符串转换为分子式去计算原子数量的任务,Claude 3要比GPT-4差得多,但大多数任务的大幅领先还是展现了Claude 3在专业领域学习能力上的优越性。

Anthropic在官网介绍Claude 3时,用了「smarter, faster, safer」去描述大模型智能的未来潜力。

而我们在化学特定任务上,已经可以感受到了Opus作为通用模型,学习的速度之快,能力之强。

LLM超越任务特定模型,指日可待

在SMolInstruct原论文的结尾,作者也表达了对在化学领域,LLM能够超越任务特定模型的期许和展望。


任务特定模型毕竟是基于固定的输入,它们被优化以执行其特定任务,通常在大小和复杂性上都较小,而且在跨知识共享的任务中很难有好的表现。

而LLM有更多的参数和模型结构,可以在学习中进化,也能快速适应新的需求。

不可否认的是,经过微调的LLM更多的在专业领域上赶超任务特定模型,目前非常依赖于微调指令的完整性、全面性、准确性。

但若以发展的眼光来比较两种模型,尤其是在我们已经感受到Claude 3可怕的成长速度之后。

可以 预 想到, 作为 通用模型来设计的LLM,会在专业领域逐渐爆发 。

参考资料:

https://twitter.com/hhsun1/status/1766656199083098134

https://www.anthropic.com/news/claude-3-family

https://arxiv.org/pdf/2402.09391.pdf

相关内容

热门资讯

贷款也“拼团” 银行抢单忙 购物能“拼团”,贷款也能! 近日,一场“拼团融资”的银企对接活动在省工业和信息化厅拉开帷幕。 “贷款...
逛花展、赶市集、嗨直播!202... 5月23日 “2026北京直播电商购物月” 在丰台区丽泽金融商务区·2026北京国际花展 正式拉开帷...
2026中关村毕业季|AI“吃... “上帝会掷骰子吗?” 在联想未来中心的“与智者同场”展区,一位海淀学子对着屏幕问道。 爱因斯坦微微前...
原创 今... 今日为5月23日,国际现货黄金价格在4500美元/盎司整数关口附近徘徊不前,日内最低触及4480美元...
三连亏后变为“无主”状态,农尚... 从吴亮手中接盘农尚环境(300536)不足三年后,林峰如今让出了公司控制权,上市公司进入“无主”状态...
55岁湖南女首富出手!豪掷13... 快科技5月24日消息,与马斯克、库克并肩而坐,刚参加完国宴的湖南女首富周群飞就买了家上市企业。 近日...
外资加仓A股,岂是跟风这么简单... 熬过忙碌的交易日,在周末安静时段,理清接下来布局方向。本篇为大家准备了5条要闻,涵盖市场动态、行业变...
原创 俄... 在全球能源的残酷牌桌上,手里攥着石油,腰杆子才能硬气。长期以来,中东的沙漠、俄罗斯的冰原、美国的页岩...
喜力啤酒有产品将涨价,华润啤酒... 来源:红星新闻 红星资本局5月22日消息,今日,红星资本局从雪花啤酒(厦门)有限公司、华润啤酒方面获...
原创 金... 心理预期调整刻不容缓,五月二十二日,黄金价格或将重现十五年前的历史性低迷。 近期若您密切关注着黄金市...
原创 马... 埃隆·马斯克如果能让SpaceX实现“科幻小说”级别的目标,他可能获得1万亿美元的收入。 埃隆·马斯...
涨涨涨!放开限制、可加杠杆!这... 韩国股市站在风口上! 据最新消息,为吸引更多海外资金进入股市,韩国政府计划放开限制,允许境外投资者直...
下周9家上会丨科创板首单IPO... IPO及再融资上会预告 据交易所官网审核动态信息,下周(5.25-5.29)IPO上会审核6家企业,...
富途、老虎市值蒸发1/4!或被... 来源:金融时报 5月22日,中国证监会宣布依法对Tiger Brokers (NZ) Limited...
马爸爸的好兄弟钱多多搞了杀猪盘... *此图由AI生成 作者| 史大郎&猫哥 来源| 是史大郎&大猫财经Pro 上周四,港股经纬天地大崩盘...
原创 壳... 编辑:XL 国际能源圈最近炸开了锅,壳牌这家百年石油巨头在2026年3月与委内瑞拉政府正式签署多项油...
存储热潮愈演愈烈!奖金拿到手软... 财联社5月24日讯(编辑 卞纯)在席卷全球的存储芯片热潮中,韩国“存储芯片双雄”SK海力士和三星无疑...
揽牌、合作、生态,跨境支付头部... 近日,国内头部跨境支付机构密集落地海外重要布局,一方面,连连数字、PingPong两家公司相继在中东...
原创 帮... 老铁们,周末好!我是帮主郑重。刚扫了一眼下周的财经日历,好家伙,事件一个接一个,堪称“消息面轰炸周”...
海南省住建厅与中国石化海南石油... 5月22日,中国石化海南石油分公司代表、党委书记李新强、总经理蔡文东一行赴海南省住建厅拜访交流。省住...