北大团队构建“情境化构念表征”框架,用AI大模型感知已逝去的心灵 北大团队构建“情境化构念表征”框架,用AI大模型感知已逝去的心灵
admin
2024-03-31 20:05:04
0

历史学和考古学的目的,是重现已消逝的生活。而历史文本,则是心理学家眼中的“遗迹”和“化石”。

北京大学历史系博士生、美国哈佛大学定量社会科学研究所联合培养博士生陈钰琪和合作者,则希望利用 AI 模型在大规模的历史文本中测量那些已逝去的心灵。


图 | 陈钰琪(来源:陈钰琪)

长期以来,文化心理学家对人类的历史一直抱有强烈的兴趣,因为文化和心理的演进并非一蹴而就,而是在漫长的历史时段中形成的。他们的思想与行为是由社会塑造的,而社会是由历史塑造的。

然而,问卷调查等科学实验方法在面对已逝去的心灵时没有用武之地,研究者们因历史无法重现而束手无策。

而自然语言处理(NLP,Natural Language Processing)与文本定量分析方法的不断更新,为相关研究带来了越来越多的可能。

基于此,陈钰琪等人开发了一种名为“情境化构念表征”(CCR,Contextualized Construct Representation)的框架,以用于测量带有上下文情境的历史文本中的心理构念,如集体主义、传统主义、社会规范强度等。


(来源:arXiv)

CCR 方法的基本原理是利用 Transformer 模型,同时辅以心理学量表与待测量文本的文本嵌入,并通过相似度计算得到待测量文本在该量表主题下的“载荷分数”。

通过在专门测试集上执行语义文本相似度、量表分类和心理测量等任务,陈钰琪和合作者针对 CCR 方法、过去心理学界主流采用的“分布式词典表征”(DDR,Distributed Dictionary Representation)方法、基于生成式大模型的小样本提示方法这三种方法,在不同模型上的表现进行了比较。


(来源:arXiv)

通过使用微调之后的模型,他们发现 CCR 方法在所有任务上的表现,均超过了传统的 DDR 方法,并在大部分任务上也超过了使用 GPT-4(gpt-4-turbo-0125-preview 版本)的小样本提示方法。


(来源:arXiv)

此外,他们也在由人工标注的真实历史数据集上,验证了 CCR 方法的可靠性。比如,通过 CCR 方法测量北宋时期不同官员所撰写文章中传统主义的心理指标分数,可以有效推测该官员是否在王安石新政中支持变法。

总的来说,该方法可以帮助心理学家、历史学家以及任何对古代文化演变感兴趣的研究人员,在相对较低的计算资源耗费下,针对不同的心理学构念或文化主题,对古代历史文本进行大规模的测量和分析,进而验证假说,揭示现代文化现象的历史根源。

研究中,他们面临的第一个问题是,受到广泛认可的心理学量表绝大多数是英文的,因此需要先将英文量表与中国古代文言文进行对齐,才能进行下一步测量。

直接将英文翻译为文言文可能是不妥当的,因为在相关语境差异巨大的情况下,很多词汇难以找到合适的表达,由人工生造的句子往往显得生硬。

为了解决这个问题,他们采用了清华大学教授课题组之前的方法,使用多语言的引文推荐模型,将与量表中的英文句子语义相似度高的文言文引文放入备选池。

并进一步通过手工筛选去除噪音,得到与英文量表对应的文言文量表。这些引文均来自于实际历史文本,而非翻译或人工生成,因此自然而然地符合文言文的语境。

接下来的第二个问题是,要从中国古代历史文本得到准确的文本嵌入需要合适的模型。目前,已有许多在文言文语料上预训练的 Transformer 模型,但没有针对语义相似度或心理测量这一特殊下游任务的模型。

针对语义相似度等任务进行训练的中文文本嵌入模型,则往往基于现代语料和数据集,因此并不适应于专门的心理测量任务。

而他们所需要的文本嵌入模型,要能够对文言文、尤其是文言文中的心理构念及其上下文情境进行准确的表征,只有这样才能胜任从道德价值判断的角度进行语义相似度计算的任务。


(来源:arXiv)

为了解决这一问题,他们提出一种基于间接监督和对比学习的训练方法。

由于相关领域数据的缺乏,他们通过手工搜集的方式,构建了第一个中文历史心理学语料库(C-HI-PSY,Chinese Historical Psychology Corpus),该语料库包括 667 个与心理或道德相关主题下的 21539 条文言文段落。

然后,他们通过在更大规模文言文语料上训练的词向量模型,获取了不同主题的词向量表示,借此计算不同主题词向量之间的相似度,并将之作为不同主题所对应文本之间心理语义层面相似度的伪真值。

后又通过随机采样或困难采样等不同的采样方式,为 C-HI-PSY 训练集中的每一个段落,采集 n 个相似度伪真值高的正样本、以及相似度伪真值低的负样本,借此构成 anchor-positive-negative 三元组,从而利用三元组损失函数对模型进行微调。

接着,他们在多个针对文言文或中文的 Transformer 模型上,根据不同的超参数组合进行实验,在 C-HI-PSY 验证集和测试集上分别进行语义相似度任务的评估。结果发现,所有模型在微调后的表现都有显著提高。


(来源:arXiv)

最终,相关论文以《审视死去的心灵:文言文语境化构念表征的历史心理文本分析》( )为题发在 arXiv[1]。

陈钰琪是第一作者,小蝇科技 AI Lab 研究员李思璇是第二作者,北京大学计算物理博士生黎颖是第三作者,美国马萨诸塞大学阿默斯特分校心理与脑科学系助理教授穆罕默德·阿塔利()担任通讯作者。

图 | 相关论文(来源:arXiv)

陈钰琪表示:“多元化的背景是他们得以完成这样跨学科的研究工作的重要因素之一。”

论文的前三位作者均为女性,在合作过程中大家的关系非常融洽。陈钰琪说:“我们相信女性的力量,也相信女性的细腻、耐心的特质会为研究增色。

比如,第三作者黎颖曾参加过举办的面向女生的 Ada Workshop,接触到了科技领域很多令人敬佩的女性榜样,这让她很受鼓舞。”

通过使用 CCR 方法,他们与哈佛大学团队合作,在上万本古籍中首次测量了集体主义、个人主义、忠诚、荣誉等十几个作为文化心理和道德基础的指标,在跨越数千年的中国历史上的历时演变及其空间分布,借此尝试揭示东西方文化心理差异的根源。相关文章也即将发布预印本。

另据悉,陈钰琪本硕博阶段均在北大历史学系接受最传统的人文学科训练。对她来说,跨界研究 AI 模型原本是难以想象的事情。

博士阶段,因研究面临浩如烟海的考古材料,她开始寻找大规模分析的方法,由此接触到量化研究和数字人文领域,新世界的大门开始对她打开。

起初她也曾有过较为漫长的艰难探索阶段,从最基础的线性代数开始补习数学,通过 Coursera 学习编程,从参与数据标注到独立设计数据库,从调用模型到训练模型,种种曲折,不一而足。

“期间受到了很多人的帮助,也非常感激我的博士导师在对待我的‘不务正业’时的开放胸怀。到现在,我已经在 GitHub 上开发了包括 OCR 文字识别、异体字转换、历史地理编码器等多个面向人文学者的开源项目。”她说。

一路走来,计算机和相关领域的开源精神使她受益匪浅,跨学科研究的经历则让她深信:古老的学科也可以拥抱崭新的技术,新的技术属于所有人。

参考资料:

1.https://arxiv.org/abs/2403.00509

排版:希幔

01/

02/

03/

04/

05/

相关内容

热门资讯

贷款也“拼团” 银行抢单忙 购物能“拼团”,贷款也能! 近日,一场“拼团融资”的银企对接活动在省工业和信息化厅拉开帷幕。 “贷款...
逛花展、赶市集、嗨直播!202... 5月23日 “2026北京直播电商购物月” 在丰台区丽泽金融商务区·2026北京国际花展 正式拉开帷...
2026中关村毕业季|AI“吃... “上帝会掷骰子吗?” 在联想未来中心的“与智者同场”展区,一位海淀学子对着屏幕问道。 爱因斯坦微微前...
原创 今... 今日为5月23日,国际现货黄金价格在4500美元/盎司整数关口附近徘徊不前,日内最低触及4480美元...
三连亏后变为“无主”状态,农尚... 从吴亮手中接盘农尚环境(300536)不足三年后,林峰如今让出了公司控制权,上市公司进入“无主”状态...
55岁湖南女首富出手!豪掷13... 快科技5月24日消息,与马斯克、库克并肩而坐,刚参加完国宴的湖南女首富周群飞就买了家上市企业。 近日...
外资加仓A股,岂是跟风这么简单... 熬过忙碌的交易日,在周末安静时段,理清接下来布局方向。本篇为大家准备了5条要闻,涵盖市场动态、行业变...
原创 俄... 在全球能源的残酷牌桌上,手里攥着石油,腰杆子才能硬气。长期以来,中东的沙漠、俄罗斯的冰原、美国的页岩...
喜力啤酒有产品将涨价,华润啤酒... 来源:红星新闻 红星资本局5月22日消息,今日,红星资本局从雪花啤酒(厦门)有限公司、华润啤酒方面获...
原创 金... 心理预期调整刻不容缓,五月二十二日,黄金价格或将重现十五年前的历史性低迷。 近期若您密切关注着黄金市...
原创 马... 埃隆·马斯克如果能让SpaceX实现“科幻小说”级别的目标,他可能获得1万亿美元的收入。 埃隆·马斯...
涨涨涨!放开限制、可加杠杆!这... 韩国股市站在风口上! 据最新消息,为吸引更多海外资金进入股市,韩国政府计划放开限制,允许境外投资者直...
下周9家上会丨科创板首单IPO... IPO及再融资上会预告 据交易所官网审核动态信息,下周(5.25-5.29)IPO上会审核6家企业,...
富途、老虎市值蒸发1/4!或被... 来源:金融时报 5月22日,中国证监会宣布依法对Tiger Brokers (NZ) Limited...
马爸爸的好兄弟钱多多搞了杀猪盘... *此图由AI生成 作者| 史大郎&猫哥 来源| 是史大郎&大猫财经Pro 上周四,港股经纬天地大崩盘...
原创 壳... 编辑:XL 国际能源圈最近炸开了锅,壳牌这家百年石油巨头在2026年3月与委内瑞拉政府正式签署多项油...
存储热潮愈演愈烈!奖金拿到手软... 财联社5月24日讯(编辑 卞纯)在席卷全球的存储芯片热潮中,韩国“存储芯片双雄”SK海力士和三星无疑...
揽牌、合作、生态,跨境支付头部... 近日,国内头部跨境支付机构密集落地海外重要布局,一方面,连连数字、PingPong两家公司相继在中东...
原创 帮... 老铁们,周末好!我是帮主郑重。刚扫了一眼下周的财经日历,好家伙,事件一个接一个,堪称“消息面轰炸周”...
海南省住建厅与中国石化海南石油... 5月22日,中国石化海南石油分公司代表、党委书记李新强、总经理蔡文东一行赴海南省住建厅拜访交流。省住...