实测“超越GPT-4”的百川超千亿参数模型:医疗问答业内最强? gpt4姣旂櫨宸濆ぇ妯″瀷寮哄湪鍝噷 鐧惧窛杈惧埌gpt4浜嗗悧
admin
2024-01-30 13:29:32
0


刚发完Baichuan-NPC还不足月,百川智能又对产品进行了一次大更新,发布了Baichuan 3模型。这次更新后,在多个权威通用能力评测CMMLU、GAOKAO和AGI-Eval中,其英文能力已经逼近 GPT-4,在中文任务表现上甚至超越了GPT-4:




百川智能一直在强调Baichuan 3在医疗场景方面的优化。在预训练阶段,百川智能就为Baichuan3构建了超过千亿Token的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。此外,他们在推理阶段进行了系统性的调优,让Baichuan 3在真实的医疗问答场景下也能给用户提供更精准、细致的反馈。

而从Baichuan 3在MCMLE、MedExam、CMExam等中文医疗任务的评测的表现来看,这款大模型在中文医疗场景的表现已经超过了GPT-4,而英文相关问题其表现也不错,仅次于GPT-4。


上手实测:医疗能力最强的中文大模型?

当然,跑分只是模型能力的一个剪影,硅星GenAI 选了一些关于医疗行业和中国传统文化相关的问题来让他回答,看看Baichuan 3的实际表现。

对于百川大模型的医疗知识与思考角度进行测试,由简单到更具专业性循序渐进地问了Baichuan 3几个就诊问题:





通过百川的回答可以看到,其“看诊”的逻辑和我们去医院看医生的问诊思路几乎是一致的。都会从引发病症的优先级考虑,对每个答案为何优先考虑和排除会给出专业、科学的解释,至少不会一上来就罗列最坏的情况,让人觉得自己小命不保。

如果遇到一些不太熟悉的药物,Baichuan 3还能够给出详细的介绍和使用方法教程。


百川也会对患者症状的口语描述会做出专业的名词解释再分析,这有利于患者在就医时与医生提高沟通效率与准确性,也会缓解部分患者表述不清症状的焦虑感。

当然,Baichuan 3给出的回答是否真的专业和准确,一般人也很难分辨,感觉目前对 AI 还是缺乏信任感,难以满足人们对于医疗判断权威性和准确性的依赖。

除了医疗领域,中国传统文化中的诗词创作的格式、韵律、表意等方面,也是这次更新的重点方向。

在文学创作方面,中学时代常学到的修辞手法有古诗里的“顶针”、“用典”,下面就先从这两点先测试一下Baichuan 3:


在第一次让Baichuan 3运用“顶针”的修辞手法写一首关于龙年的古诗时,它并没有运用这个修辞手法。

这时,我不禁好奇它到底知不知道这个修辞手法,于是便问了它:


根据百川的回答我看到,对于“顶针”手法的第一词条显示是它的别称“顶真”,基于优先级的关系,我这次选择用“顶真”这两个字来问它。


不错,这次写出来了。

但再次以“顶针”这两个字让Baichuan 3创作,依旧是上文显示没有用到此修辞手法的答案。这就好比知道 1+1=2,但问一加一等于多少就不会算了一样。还是有些相对“死板”。

为了做对比,我们也问了问ChatGPT知不知道“顶针”。

不负众望,ChatGPT也不知道这种说法。

我都开始怀疑是不是至始至终都只有“顶真”一种说法,而“顶针”只是人们的错别字说法了。


但问ChatGPT知不知道“顶真”二字的修辞手法时,ChatGPT给出了回答:


我们试着让 ChatGPT 再用顶真的修辞手法写一首诗出来,它写的诗是:


从形式上来看,确实是“顶真”的格式。先不论这首五言律诗的质量,至少也算 OpenAI 也能完成任务了。要说文采是 OpenAI 好还是百川智能的好,这个交给你们来判断吧。


下面是中国诗词最广博的修辞手法——“用典”的测试。


可惜,Baichuan 3对于典故的理解和大众有些出入,这方面还需要加强。

另外,对对子的平仄规律也是中国文学的独特魅力。我们先问了问Baichuan 3知不知道如何写对联,并让它写了一副对联出来:



百川对于此次指令的完成度极高,并且在词性、结构等方面的十分契合上文提到的对联7个要点。基本上可以直接写出来贴门上了,正好马上过年,可以用到了。

技术亮点

根据百川智能官方介绍,目前Baichuan 3的参数规模已经超千亿,为解决由于参数量巨大导致的在训练过程中出现梯度爆炸、loss跑飞、模型不收敛等问题,百川智能在训练过程中提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等技术手段及方案,来提升Baicuan 3的各项能力。具体更新细节,大家可以看百川官方的文章《 》。

总结一下,Baichuan 3有几个技术要点:

动态训练数据选择方案:可以在训练过程中动态选择训练数据,提高数据质量。

重要度保持:可以在训练初期保证模型训练初期的稳定性。

参数“有效秩”:用于在各项指标上发现训练过程的问题,加速问题定位,确保瘦脸效果

异步CheckPoint存储机制:保证无性能损失的同时加大存储频率,较少机器故障的影响。

在去年百川智能成立之初,王小川便表示会在年底推出一款对标GPT-3.5的大模型,而现在他们已经超额完成了这个目标。

欢迎加入这个星球,见证硅基时代发展↓

相关内容

热门资讯

加拿大皇家银行(RY.US)任... 智通财经获悉,加拿大皇家银行(RY.US)财富管理宣布任命多位香港高级私人银行家。该银行声明称:“这...
2026白酒市场中期报告:86... 6月18日,在四川德阳绵竹举办的2026四川国际美酒博览会开幕式暨第三届中国酒业“华夏美学”大会上,...
推出隔夜逆回购操作工具,构建现... 文/冉学东 6月17日,央行行长潘功胜在陆家嘴金融论坛上表态,央行下一步将在2024年7月设立临时隔...
胖东来多款自营产品降价,工作人... 近日,有不少网友在社交平台发文称,胖东来多款自营产品下调了价格。 据大河报报道,6月17日下午,记者...
金价走低股价频现“腰斩” A股... 央广网北京6月18日消息(记者 谢碧鹭)2026年以来,全球贵金属市场上演了一场惊心动魄的行情,现货...
中国人如何在东南亚市场卖光储? 记者 潘俊田 “我们正按计划推进2030年可再生能源占比35%的目标,但在中东局势(美以伊冲突)紧张...
钉钉新任CEO陈宇森发布全员信... PChome 6月18日消息,据晚点LatePost报道,钉钉新任CEO陈宇森发布第一封全员信,他首...
四个年轻人,被马斯克以600亿... 《福布斯》估算,交易落地后,Cursor四位年轻亿万富豪创始人每人身家将达到27亿美元。 Curso...
今晚调油价 6月4日国内成品油价格调整以来,国际市场原油价格高位震荡后近日快速回落,本次调价的前10个工作日平均...
壹评级:啤酒需求持续磨底,成本... 5月数据显示啤酒行业整体动销偏弱,近期体育赛事对需求的拉动效果也不及预期。第一财经“壹评级”认为,当...
“618”牛奶价格战没有最低只... 2026年“618”大促进入最后冲刺阶段,战火也烧到了牛奶赛道。 记者在多个电商平台看到,今年各品牌...
上半年商务礼赠减八成?中酒协报... 本文自南都·湾财社 采写 | 南都·湾财社记者 贝贝 编辑 | 柴华 超8成企业反馈利润下滑、消费者...
博弈再升级!私募股东两度提议上... 本报(chinatimes.net.cn)记者李明会 北京报道 上市银行与中小股东之间的博弈再度升级...
日本提议下年度起对食品适用两年... 6月18日,财闻海外资讯消息,6月17日在日本讨论食品饮料消费税减税问题的跨党派社会保障国民会议上,...
范式智能在北京成立新公司 注册... 天眼查App显示,近日,范式矩阵(北京)控股有限公司成立,法定代表人为汤宗贵,注册资本1000万人民...
Momenta冲刺港股IPO,... Momenta冲刺港股IPO Momenta离港股更近了一步。 6月18日,Momenta取得中国证...
新乡经开科创集团拟发行3亿元公... 【大河财立方消息】6月18日,新乡经开科创集团有限公司2026年面向专业投资者非公开发行公司债券获上...
芯片板块上涨,科创芯片ETF涨... 芯片板块上涨,寒武纪涨超6%,带动科创芯片ETF广发、科创芯片ETF鹏华、科创芯片ETF易方达、科创...
数万亿元投向六张网 10万亿元... 【数万亿元投向六张网 10万亿元大市场要来了】财联社6月18日电,近日,“六张网”在网络刷屏,引发关...
首批商业不动产REITs在上交... 据上交所发布,2026年6月18日,首批商业不动产REITs上市仪式在上海证券交易所成功举行。本次上...