江晓原:“数据挖掘”:天使还是魔鬼?
创始人
2025-12-13 10:37:04
0

来源:滚动播报

(来源:上观新闻)

比特币收益与制造业和金属采矿业的股票收益呈负相关……

特朗普在推特文章中使用“with”这个单词四天后,中国茶叶分销商Urban Tea的股价会下跌……

特朗普在推特文章中使用“president”这个单词与两天后股价的标准普尔500指数之间存在0.43的相关性……

看到这些新发现的“规律”或“模式”,你震不震撼?惊不惊喜?如你所料,这样的发现离不开“大数据”和“AI算法”,特别是近年一个非常时髦的方法“数据挖掘”。

《不被信任的科学——大数据、人工智能与信息欺骗》,[美]加里·史密斯 著,孙 强 译,上海科技教育出版社2025年出版

一个经济学家眼中的“数据挖掘”

“数据挖掘”又被称为“机器学习”或“知识发现”——这些名词在中文语境中都是“好词”,充满了高科技和创新意味,肯定不具有任何批判色彩。所谓“数据挖掘”,用大白话来说,就是在海量的“大数据”中,借助各种“AI算法”,尝试“发现”或获取各种各样的数据关系。

加里·史密斯(Gary Smith)是美国经济学家、统计学家,耶鲁大学经济学博士,在波莫纳学院当经济学教授。面对如今的“大数据”和“AI算法”浪潮,史密斯看来是一个明显的保守派。2023年他出版了《不被信任的科学——大数据、人工智能与信息欺骗》一书,基本论点是:“虚假信息”“数据歪曲”“数据挖掘”这三件事情,正在极大地损害科学的信誉,使得科学不再被公众所信任。其中尤以“数据挖掘”让他深恶痛绝,在书中花了很大的篇幅进行抨击(主要集中在第三部分,即第8—10章)。

史密斯在书中所举的各种“数据挖掘”的例子,看上去当然是非常荒谬的。他将这些“数据挖掘”的发现称为“愚人金”(一种有着黄金色泽的铜),认为这些数据关系不仅很可能是毫无意义的,甚至还会具有欺骗性。但问题在于,“荒谬”和“不荒谬”的界限在哪里呢?或者说,在被“挖掘”出来的各种关系中,如何判断一种数据关系是“荒谬”的,而另一种是“不荒谬”的呢?

史密斯在对“数据挖掘”的定义中,似乎也接触到了这个问题:“在不受理论影响的数据中寻找潜在的模式,这被称为数据挖掘,即研究人员在数据中深入挖掘,并且无法预知他们会发现什么。”他又表示:“传统的数据库查询需要一定程度的假设,但挖掘大数据会揭示出我们甚至不知道要去寻找的关系和模式。”他还引用《连线》杂志上题为“大数据与理论家的消亡”的文章说:“算法寻找模式,而假设从数据中得出。分析师甚至不必再费心提出假设。”

总而言之,史密斯的意思归纳起来就是:传统的数据处理有理论指导和预期,而“数据挖掘”则是信马由缰,乱挖一气,希望能挖出点意想不到的东西来(比如本文开头所举的那些例子就很典型)。而史密斯在书中毫不犹豫地断言:“由数据挖掘所发现的大多数模式都是胡说八道。”

从传统的数据处理到“数据挖掘”

史密斯是一个经济学家,我猜想他可能并未接受过理工科的学术训练。其实“数据挖掘”到底是天使还是魔鬼,也未必像史密斯所想象的那样,因为它和传统的数据处理之间并无不可逾越的鸿沟,很多情况下它就是正常的科学研究手段。

我本科学天体物理专业出身,曾在中国科学院上海天文台工作过15年。天文学界有一种工具称为“星历表”,就是用现代天体力学方法,计算出太阳系中各大行星、矮行星等天体每隔一段时间(这个间隔称为“步长”)的天球坐标(黄经和黄纬)。用今天的眼光来看,我们完全可以将星历表看成一种“大数据”,我们可以使用适当的计算机语言(就是“AI算法”),在其中“挖掘”出各种各样的结果。例如,我们可以求出牧野之战那天(公元前1044年1月9日)清晨时木星在天球上的位置,也可以找出其他各种各样的数据关系——如果我们觉得这种关系有意义的话。

换句话说,从正常合理的数据分析处理,到史密斯所抨击的“数据挖掘”,中间有着类似“连续谱”的过度区域。数据处理技术在互联网和人工智能出现之前很早就存在了。史密斯所深恶痛绝的,其实应该是当下对“数据挖掘”的滥用。

至于“数据挖掘”为何会在当下被滥用,那确实与大数据和AI有关。我进天文台工作是20世纪80年代,那时的星历表还是一种非常厚的纸质大书,里面用极小的字密密麻麻印着数据,如果要在里面“挖掘”,只能用肉眼耐心搜寻数据,找出数据后还要用内插法处理过,才能够使用,在这种情况下,滥用是不可能发生的。而进入1990年代,我们开始使用NASA喷气推进实验室的星历表数字光盘,这时采用“AI算法”从星历表中“挖掘”数据已经成为可能,不过我们当然从未起过“滥用”的念头。

这是一幅荒诞的图景吗?

仅看《不被信任的科学》这样的书名,很容易让人误以为是“科学知识社会学”(SSK)方面的著作,其实却并非如此。史密斯虽然没有从科学哲学的角度去讨论问题(也许他不具备这方面的背景),但他对“大数据”和“AI算法”各种弊端的强烈批判,至少在客观效果上还是很有启发意义的。

比如书中第一部分讨论“虚假信息”,这就是我们通常意义上的所指:给出一些富有“科学”色彩的概念和说法,目的是对公众进行欺骗。作者举的例子是当下炙手可热的区块链和比特币。史密斯认为许多人根本不知道区块链是什么,只觉得它非常“科学”,非常高大上,那和它绑在一起的比特币必定前程远大。而他认为“比特币的内在价值为零”,他将比特币和金融史上的郁金香炒作和南海股票骗局视为同类——注意这是本书作者的看法,他被视为经济学家。不过我们当然不在这里讨论比特币的成败,如果比特币真的前程远大,那就是史密斯举例不当,但并不影响他对“虚假信息”的批判。

书中第二部分揭露“数据歪曲”,这也是中国读者所熟悉的,指对数据进行错误解读,看起来很“科学”,而且“用数据说话”,显得更加“有理有据”,因而更具欺骗性。史密斯举的例子还是比特币——看来他是真的和比特币有仇了。当然他对“数据歪曲”的批判,从学理上说仍然成立。

在本书的最后两个部分,史密斯发起了对人工智能和当代某些社会学研究的密集批判。他对人工智能业界迄今为止所宣称的各种进展,普遍评价很低。他还举出了各种他认为是荒诞离奇的“学术研究”例证,比如女性向男性求助时是披着头发还是扎着马尾更容易成功之类(其实这个例子未必荒诞)。

史密斯用一种相对来说比较朴素的思路,指出了一个有点魔幻的现象——科学技术的最新成果(互联网、大数据、人工智能等等),正在损害科学技术之前积累起来的声誉,使得公众失去对科学的信任:“科学家创造了大数据和分析大数据的工具,但两者都为科学家制造了更多让他们尴尬和损害他们信誉的机会。”

原标题:《江晓原:“数据挖掘”:天使还是魔鬼?》

栏目主编:朱自奋 文字编辑:蒋楚婷

来源:作者:江晓原

相关内容

热门资讯

原创 4... 写在文章前的声明:在本文之前的说明:本文中所列的投资信息,只是一个对基金资产净值进行排行的客观描述,...
胜宏科技港股大涨49% 做完英... 记者 陈月芹 4月21日,全球AI算力板龙头胜宏科技(02476.HK)登陆港交所,上市首日股价大涨...
永赢基金:聚焦“科技新锐”,科... 数据来源:Wind,时间统计区间为2025/1/1-2026/4/21,指数过往表现不预示未来,不构...
五大阅读趋势显现!当当网发布2... 在第31个世界读书日即将来临之际及首个全民阅读活动周期间,当当网正式发布2026国民阅读洞察报告。 ...
业绩逐季回暖 老百姓大药房一季... 上证报中国证券网讯(记者 夏子航)4月22日晚,老百姓大药房发布2025年年报和2026年一季报。今...
中国20强城市大洗牌:苏州接近... 中国的城市经济竞争格局一直在变化,每年发布的GDP数据都会对城市经济实力进行重新排列。2025年榜又...
直击金宏气体股东会:预期年内氦... 《科创板日报》4月22日讯(记者 郭辉)金宏气体日前举行2025年度股东大会。会上该公司审议了公司年...
5月1日起,俄据悉将叫停哈萨克... 据行业消息人士透露,俄罗斯将于5月1日起停止经友谊管道转运哈萨克斯坦输往德国的石油,相关调整计划已送...
深化具身智能生态布局 京东携手... 4 月 22 日,京东与国内消费级人形机器人头部企业松延动力正式达成三年期战略合作。双方将围绕产品研...
原创 帮... 先问你一个问题,美伊停火今晚到期,按常理避险情绪该升温,黄金应该涨吧?结果恰恰相反——原油涨了,黄金...
300295、600889,将... 三六五网、南京化纤,将被*ST。 公司股票自4月23日开市起停牌一天,于4月24日开市起复牌并实施退...
能源大变天!外媒:羡慕中国的石... 这一次油价突破 110 美元的能源危机,着实魔幻。如果放在十年前,没人会相信中国能在这场风波中获利,...
黄金涨跌两难,现在还能上车吗? 中新网4月22日电(记者 左雨晴) 四月以来,美伊局势反复拉扯,美联储降息预期一变再变。黄金价格在4...
“我身体健康”,库克现身员工大... 当地时间4月21日,受苹果官宣CEO换届影响,公司股价盘中下探超2%,总市值失守4万亿美元关口,收盘...
库克留下一个悬念 工程师能否拯救创新节奏? 听筒Tech(ID:tingtongtech)原创 文 | 赵 森 ...
探索消费信贷与社交支付深度融合... 腾讯这一金融产品再添新功能,4月19日,北京商报记者注意到,微信分付灰度测试转账功能引发热议,在向微...
土耳其主要银行股指早盘下跌2% 每经AI快讯,4月20日,土耳其主要银行股指早盘下跌2%。 每日经济新闻
好用的OTA代运营源头厂家 在如今竞争激烈的酒旅行业中,OTA代运营服务成为了众多酒店、民宿提升竞争力的关键。但市场上的代运营厂...
成都五一出游全国热门第三 “五一”假期临近,同程旅行最新发布的《2026“五一”旅行趋势报告》显示,今年“五一”期间成都同时位...