江晓原:“数据挖掘”:天使还是魔鬼?
创始人
2025-12-13 10:37:04
0

来源:滚动播报

(来源:上观新闻)

比特币收益与制造业和金属采矿业的股票收益呈负相关……

特朗普在推特文章中使用“with”这个单词四天后,中国茶叶分销商Urban Tea的股价会下跌……

特朗普在推特文章中使用“president”这个单词与两天后股价的标准普尔500指数之间存在0.43的相关性……

看到这些新发现的“规律”或“模式”,你震不震撼?惊不惊喜?如你所料,这样的发现离不开“大数据”和“AI算法”,特别是近年一个非常时髦的方法“数据挖掘”。

《不被信任的科学——大数据、人工智能与信息欺骗》,[美]加里·史密斯 著,孙 强 译,上海科技教育出版社2025年出版

一个经济学家眼中的“数据挖掘”

“数据挖掘”又被称为“机器学习”或“知识发现”——这些名词在中文语境中都是“好词”,充满了高科技和创新意味,肯定不具有任何批判色彩。所谓“数据挖掘”,用大白话来说,就是在海量的“大数据”中,借助各种“AI算法”,尝试“发现”或获取各种各样的数据关系。

加里·史密斯(Gary Smith)是美国经济学家、统计学家,耶鲁大学经济学博士,在波莫纳学院当经济学教授。面对如今的“大数据”和“AI算法”浪潮,史密斯看来是一个明显的保守派。2023年他出版了《不被信任的科学——大数据、人工智能与信息欺骗》一书,基本论点是:“虚假信息”“数据歪曲”“数据挖掘”这三件事情,正在极大地损害科学的信誉,使得科学不再被公众所信任。其中尤以“数据挖掘”让他深恶痛绝,在书中花了很大的篇幅进行抨击(主要集中在第三部分,即第8—10章)。

史密斯在书中所举的各种“数据挖掘”的例子,看上去当然是非常荒谬的。他将这些“数据挖掘”的发现称为“愚人金”(一种有着黄金色泽的铜),认为这些数据关系不仅很可能是毫无意义的,甚至还会具有欺骗性。但问题在于,“荒谬”和“不荒谬”的界限在哪里呢?或者说,在被“挖掘”出来的各种关系中,如何判断一种数据关系是“荒谬”的,而另一种是“不荒谬”的呢?

史密斯在对“数据挖掘”的定义中,似乎也接触到了这个问题:“在不受理论影响的数据中寻找潜在的模式,这被称为数据挖掘,即研究人员在数据中深入挖掘,并且无法预知他们会发现什么。”他又表示:“传统的数据库查询需要一定程度的假设,但挖掘大数据会揭示出我们甚至不知道要去寻找的关系和模式。”他还引用《连线》杂志上题为“大数据与理论家的消亡”的文章说:“算法寻找模式,而假设从数据中得出。分析师甚至不必再费心提出假设。”

总而言之,史密斯的意思归纳起来就是:传统的数据处理有理论指导和预期,而“数据挖掘”则是信马由缰,乱挖一气,希望能挖出点意想不到的东西来(比如本文开头所举的那些例子就很典型)。而史密斯在书中毫不犹豫地断言:“由数据挖掘所发现的大多数模式都是胡说八道。”

从传统的数据处理到“数据挖掘”

史密斯是一个经济学家,我猜想他可能并未接受过理工科的学术训练。其实“数据挖掘”到底是天使还是魔鬼,也未必像史密斯所想象的那样,因为它和传统的数据处理之间并无不可逾越的鸿沟,很多情况下它就是正常的科学研究手段。

我本科学天体物理专业出身,曾在中国科学院上海天文台工作过15年。天文学界有一种工具称为“星历表”,就是用现代天体力学方法,计算出太阳系中各大行星、矮行星等天体每隔一段时间(这个间隔称为“步长”)的天球坐标(黄经和黄纬)。用今天的眼光来看,我们完全可以将星历表看成一种“大数据”,我们可以使用适当的计算机语言(就是“AI算法”),在其中“挖掘”出各种各样的结果。例如,我们可以求出牧野之战那天(公元前1044年1月9日)清晨时木星在天球上的位置,也可以找出其他各种各样的数据关系——如果我们觉得这种关系有意义的话。

换句话说,从正常合理的数据分析处理,到史密斯所抨击的“数据挖掘”,中间有着类似“连续谱”的过度区域。数据处理技术在互联网和人工智能出现之前很早就存在了。史密斯所深恶痛绝的,其实应该是当下对“数据挖掘”的滥用。

至于“数据挖掘”为何会在当下被滥用,那确实与大数据和AI有关。我进天文台工作是20世纪80年代,那时的星历表还是一种非常厚的纸质大书,里面用极小的字密密麻麻印着数据,如果要在里面“挖掘”,只能用肉眼耐心搜寻数据,找出数据后还要用内插法处理过,才能够使用,在这种情况下,滥用是不可能发生的。而进入1990年代,我们开始使用NASA喷气推进实验室的星历表数字光盘,这时采用“AI算法”从星历表中“挖掘”数据已经成为可能,不过我们当然从未起过“滥用”的念头。

这是一幅荒诞的图景吗?

仅看《不被信任的科学》这样的书名,很容易让人误以为是“科学知识社会学”(SSK)方面的著作,其实却并非如此。史密斯虽然没有从科学哲学的角度去讨论问题(也许他不具备这方面的背景),但他对“大数据”和“AI算法”各种弊端的强烈批判,至少在客观效果上还是很有启发意义的。

比如书中第一部分讨论“虚假信息”,这就是我们通常意义上的所指:给出一些富有“科学”色彩的概念和说法,目的是对公众进行欺骗。作者举的例子是当下炙手可热的区块链和比特币。史密斯认为许多人根本不知道区块链是什么,只觉得它非常“科学”,非常高大上,那和它绑在一起的比特币必定前程远大。而他认为“比特币的内在价值为零”,他将比特币和金融史上的郁金香炒作和南海股票骗局视为同类——注意这是本书作者的看法,他被视为经济学家。不过我们当然不在这里讨论比特币的成败,如果比特币真的前程远大,那就是史密斯举例不当,但并不影响他对“虚假信息”的批判。

书中第二部分揭露“数据歪曲”,这也是中国读者所熟悉的,指对数据进行错误解读,看起来很“科学”,而且“用数据说话”,显得更加“有理有据”,因而更具欺骗性。史密斯举的例子还是比特币——看来他是真的和比特币有仇了。当然他对“数据歪曲”的批判,从学理上说仍然成立。

在本书的最后两个部分,史密斯发起了对人工智能和当代某些社会学研究的密集批判。他对人工智能业界迄今为止所宣称的各种进展,普遍评价很低。他还举出了各种他认为是荒诞离奇的“学术研究”例证,比如女性向男性求助时是披着头发还是扎着马尾更容易成功之类(其实这个例子未必荒诞)。

史密斯用一种相对来说比较朴素的思路,指出了一个有点魔幻的现象——科学技术的最新成果(互联网、大数据、人工智能等等),正在损害科学技术之前积累起来的声誉,使得公众失去对科学的信任:“科学家创造了大数据和分析大数据的工具,但两者都为科学家制造了更多让他们尴尬和损害他们信誉的机会。”

原标题:《江晓原:“数据挖掘”:天使还是魔鬼?》

栏目主编:朱自奋 文字编辑:蒋楚婷

来源:作者:江晓原

相关内容

热门资讯

扩张提速、店铺“加密”,“硬折... 北京“硬折扣”超市“迎新”。6月26日,盒马旗下平价社区超市超盒算NB首批6家门店同步开业,网点覆盖...
外媒:黄金白银遭遇“完美风暴” 参考消息网6月26日报道据西班牙《经济学家报》网站6月23日报道,贵金属在金融市场正经历一场名副其实...
原创 法... 巴黎《费加罗报》给中国扣上"拯救者"的帽子,纽约《华尔街日报》隔着大西洋默默点头。 两家立场南辕北辙...
金价大跌!有商家囤货资产缩水百... 近期,国际金价持续大幅下行。6月26日19时30分左右,伦敦金现货价格报4050美元/盎司,较年内高...
原创 人... 大家好,这里是史记文谭,闲中着色,笑里有情,不废观星问月,亦赏市井浮生。 前言 咱们每天兜里揣着的钱...
交运股份告别六年扣非亏损,更名... 本报记者 张蓓 陈炳衡 北京报道 日前,上海交运集团股份有限公司(600676.SH)召开2026年...
原创 星... 马斯克的手又伸长了。这次不是火箭回收,也不是把"星链"塞进乌克兰战壕,而是直接杀进美国消费者的手机号...
视频丨一部剧带火一座城 “追剧... 第31届上海电视节各奖项昨晚(26日)揭晓,谍战题材电视剧《沉默的荣耀》在5项重磅提名中,最终斩获评...
东京经济论坛现场观察:日本华商... 作者 | 东京谢社长 6月26日,我去东京丽嘉皇家酒店参加了东京国际商学院EMBA二期开学典礼暨...
苏州投资人问:土耳其20年免税... 苏州投资人问:土耳其20年免税到底怎么理解? 最近一段时间,苏州工业园区和外企圈子里,关于土耳其20...
刘强东为70万京东物流人员规划... 职业被智能化设备迭代替代,已经成为当下众多从业者共同的内心顾虑。近期刘强东在行业论坛的发言,再度引发...
富国基金换帅:裴长江退休卸任,... 6月26日,富国基金发布高级管理人员变更的公告,董事长裴长江因退休离任,申万宏源证券执行委员会成员王...
两部门最新发布!事关黄金及黄金... 6月26日,中国人民银行、海关总署联合发布通知,就《黄金及黄金制品进出口管理办法(征求意见稿)》向社...
中信重工重构全球矿山装备供应链... 文丨承承 编辑丨李壮 2026年盛夏,第四届“中国国际供应链促进博览会”在北京顺义拉开帷幕。在中信集...
全球爆火的ETF,纳入中国存储... 史上增长最快的新发ETF,刚刚把"中国存储龙头"买成了前十大重仓! 6月,Roundhill Mem...
金价暴跌!重回“3字头”时代 继6月24日、25日伦敦金现连续两日盘中跌破4000美元/盎司后,6月26日国际金价延续跌势。 截至...
一批站在“光”里的基金经理们,... 【导读】一批绩优“追光者”密集出手限购,年内业绩前十均已“闭门谢客” 中国基金报记者 曹雯璟 仅过了...
赛场出圈,多品类业务破局,蒙牛... 2026世界杯加持,股价逆势走高! 文/每日财报 南黎 夏日的墨西哥城阿兹特克体育场,伴随着202...
IPO抢着给科技输血,钱却在选... 2026年上半年,A股IPO市场交出81家上市、1057亿元募资的成绩单,新股首日回报率233%创近...
原创 缅... 缅甸领导人敏昂莱结束访华行程刚回到内比都,缅甸官方就向全世界扔出了一枚重磅炸弹——正式宣布发现总规模...