撰文 / 王思易
编辑 / 张 南
设计 / 荆 芥
2025年的中国股市一路抬头,8月份,沪深300指数录得近一年最强的单月反弹;上证综指自4月低点回升约四分之一,冲至十年未见的高位。
实际上,不仅仅是中国,全世界的股市都在涨。美国、日本、英国代表性股指8月均刷新历史最高点位,德国、巴西于7月上旬创历史新高。
这显然多亏了AI的爆发式进展,它带动上市公司资本支出迅速提升,盈利能力也出现改善。
在这波前无古人的牛市中,有些人追着AI“赛道”与“风口”奔跑,有些人是真正的“玩家”。
这对应金融界的两个名词:阿尔法(alpha)和贝塔(beta)。
beta代表了你通过简单地持有大盘指数就能获得的平均回报,也就是你的投资与整个市场波动的关联度。
如果你买入一个beta值为1的资产,它就会随大盘同涨同跌。beta是系统性的、被动的,它就像是全世界为承担市场风险所支付的一笔“手续费”,人人都能获得。
alpha是你的投资回报减去由于市场波动(beta)而预期的回报后,所剩下的那一部分超额收益。
alpha为正,代表你的投资跑赢了市场;为负则意味着跑输了市场。
有种收益是“纯粹阿尔法收益”,这种回报是如此“纯粹”,以至于它无法被任何其他已知的市场因子来解释。
而真正的投机分子,是那些追求纯粹阿尔法的人。对真正纯粹的投机分子来说,其回报不应依赖于押注某个热门行业、大市值股票,而是来自于一种独特的、持久的乐观主义。
那些笃信风口与周期的人,往往也最怕错过风口、选错赛道;而投机主义者则相信,真正的机会永远存在。
AI投机分子,不是炒作AI概念的人,而是利用AI追求利益、寻找机会的人。
纯粹投机分子的第一原则,是与世界保持“正交”:远离大盘的情绪波动,也与热门叙事保持距离。世界可以让你兴奋,也能让你恐慌,但你必须学会置身事外。
第二原则是可重复性:一次偶然的好运不算本事,只有在不同标的、不同时间、不同场景中持续展现的胜率,才有资格被写入交易手册。
第三原则是可计量:回测、交叉验证、交易成本、滑点、极端情景的压力测试——缺一不可。
而不得不承认,更能严格遵守这些准则的,是AI。
01
后悔最小化算法
2017年,在一场长达20天的扑克比赛中,卡内基梅隆大学开发的AI系统Libratus击败了四位世界顶尖的职业扑克玩家获得冠军。
Libratus采用的核心技术是“反事实后悔最小化”(Counterfactual Regret Minimization,简称CFR+)算法。反事实指的是AI在训练中数万次问自己:“如果我没有这么做,而是做了另一件不同的事,那会发生什么?”
后悔最小化是指,在每次推演之后,AI会评估自己“没有选择那个更好的行动”的“后悔程度”。它会不断地、机械地调整自己的策略,直到这种“后悔”被降到最低。
与国际象棋或围棋等完美信息游戏不同,扑克是一种“不完美信息”游戏,玩家无法看到对手的底牌,必须在信息不完整的情况下做出决策。CFR+通过让AI与自己进行数万亿次的博弈,来识别和“最小化对没有采取不同行动的后悔”。
另一家AI体育博彩公司Leans.AI则通过其核心算法“Remi”,实现了更精确的“可计量”。Remi算法能够处理上千个数据点,如球员统计、天气、伤病报告等,并计算出每一次下注的获胜概率。此外,该算法还使用凯利准则(Kelly Criterion)来给每一次推荐的下注分配“单位”。
凯利准则是一个简单的数学工具,用于回答一个最基本的问题:“面对一个有优势的赌局,我应该下注多少?”其核心目的在于,在长期重复的博弈中,它能帮助你找到一个最佳的投注比例,从而最大化你资产的长期增长率,同时避免破产的风险。
凯里准则的计算考虑了两个关键变量,
p:获胜的概率。
b:可以获得的赔率。
Leans.AI会通过其Remi算法来计算出一场比赛的获胜概率(p)。但它不会直接告诉你“谁会赢”,而是会给出“获胜的概率是54.4%”这样的数据。
接下来,Leans.AI就会将这个获胜概率(p)与市场赔率(b)结合起来,通过凯利准则计算出最佳的下注金额,赔率(b)通常由博彩公司提供。这个计算结果被量化为“单位”(unit),例如,Leans.AI会建议你在某个特定的下注上投入“2个单位”。按照该平台的默认设置,一个单位通常是你总资金的1%。
如果你按照它的建议下注你的总资产的2%,你的反事实后悔将最小化。
在绝对理性的疆域内,算法将不确定性驯化为一套精密的概率语法。在这个过程中,会产生奇妙的折射——那被称作“视差”的迷人偏差,正是所有故事开始的地方。
02
市场的视差
我们习惯把世界想象成一只巨大骰盅:摇一摇,六面公平。
然而,同样是抛硬币,掌心出汗、风向,甚至你昨晚刷到的情绪化短视频,都会让硬币在空中多转半圈。
就比如“石头剪刀布”。理论上大家各出三分之一;现实里,“第一手出石头”的人更多——世界石头剪刀布协会统计过,第一局出“石头”的概率≈35%,“布”≈29%,“剪刀”≈26%。
世界石头剪刀布协会真的存在,每年都会办比赛
这是因为,做出石头的手势最容易,而剪刀手稍微复杂一点,并且在“石头剪刀布”这个短语中,“石头”排第一个。
这也意味着,开局出“布”,赢面就微微上扬——这就是生活里最迷人的小概率:不够写进神话,却足以在长期的重复博弈中累积成可观的收益。
但是人们往往忽略这个策略。这是因为,人类的决策,深受根深蒂固的“世界观”与“主流叙事”的影响。
即便是那些体育博彩的高手,他们看球队状态,也看赔率的情绪,盯赛中势能,算节奏切换,关心盘口流动性和限额,但在内心里,他们会相信一场比赛是公平的。
而AI恰恰相反。它的优势之一是无知。AI模型,它并不“知道”什么是热搜、什么是专家,更不会被人类的情绪和偏见所笼罩。对它而言,规则、法律、新闻、财报数字,都只是一个个可以被拆解、量化、打上标签的数据点。这往往让它们表现得“愚蠢”,但这也是他们的优势所在。
AI很难理解为什么人类会这么根深蒂固地相信“石头剪刀布”是公平的。
人工智能博彩初创公司MonsterBet的创始人赛德(Szeder)透露:一般人预测比赛的准确率大概在52%,而他的AI能达到56%到60%。
他本是计算机专业出身,当初是在大学里应一群爱好赌博的朋友之请,才开始编写体育博彩算法。
到了2025年初,赛德把AI引入了这项实验,开发出一款名为MonsterGPT的智能助手,用于筛选美国职业体育赛事的下注方案。该系统基于他自建的预测模型,并融合从互联网实时抓取的信息。通过“检索增强生成”技术,MonsterGPT能调用网络爬虫,获取训练数据之外的最新情报。
如今,赛德正试图把这项技术变成一门生意。他在社交平台上发布“昨日靠博彩AI进账1200美元”这类内容吸引用户,并以每月77美元的价格提供MonsterGPT等工具的使用权限。
03
可如果所有人都用上AI,又会怎样?
AI浪潮兴起已有两三年,一个现实始终未变:靠提供AI服务赚钱的人,远比单纯使用AI的人赚得多。
然而,真正令人不安的,并非AI普及所导致的AI红利摊薄,也不是科技寡头借基础设施扼住行业命脉——而是某些更在意料之外、更加诡异的局面。
2010年5月6日下午,美股在2:32p.m.(东部时间)开始突然跳水,道指一度瞬间跌去近1000点(约9%),几十分钟后又大幅拉回。
那20多分钟里,市场账面市值一度蒸发约1万亿美元,不少个股与ETF在极端价位成交(比如极短时间里有人用几分钱成交到大盘股)。因为来得快、去得也快,这场事故被称为“闪崩(Flash Crash)”。
闪崩:类似的事件在2021年的数字货币领域也发生了一次
发生了什么呢?不妨把股市想成一条高速路。多数自动化交易机器人装着同款“导航”(看同一批数据、用相似模型、跑在相同云服务上)。某条新闻一出来,导航同时提示“走这条更快”。结果大家一起并线,同一秒冲向同一边:要么一窝蜂买入,要么集体砸盘。盘面就会出现“瞬时拥挤”——买的人全挤在买的一侧,卖的人全挤在卖的一侧,愿意在中间接单的报价突然变少。
如果未来盘面里AI占比更高,这个过程将会更快。
此外,美国国家经济研究局(NBER)一项最新工作论文显示,即便在没有明确沟通的情况下,由强化学习(RL)驱动的交易算法也能够在重复博弈中“自发学会”某种一致行为,从而导致整体价格水平偏离充分竞争状态。
该研究中,研究人员将人类交易员替换为能够自主摸索策略的RL交易机器人,并在一个可观察对手行为、可反复交互的模拟市场中进行实验。
结果发现,这些算法无需任何沟通,便会逐渐形成两类看似“默契”的行为模式:一类是“惩罚性跟跌”——只要有机器人率先降价抢单,其他算法会立即同步降价以示惩罚,待其回归高价后,大家再共同恢复原价;另一类则是“保守型报价”,主动拉大买卖价差,使整体报价更显强硬。
两种策略的共同后果,都是将价格推高至完全竞争水平之上。研究者将此类现象概括为“AI合谋”,并警示现实市场中算法同质化与行为趋同可能带来的放大效应。
这一发现与早期实验经济学的结论相互印证。在“寡头重复定价”的仿真环境中,即便多个Q-learning定价算法之间不进行任何交流,它们也能通过“试探—惩罚—恢复”的机制,自发维持较高的价格区间。
由此,监管研究界提出一个现实关切:股市中并不存在统一标价,价格形成于订单簿中无数委托指令的连续匹配。
如果大量做市商与高频交易策略依赖相似的数据源、采用相近的模型架构与优化目标,并在相互观察中不断学习,久而久之便可能形成“互不抢单、共同维稳”的默契:点差倾向于维持在安全区间,报单行为趋于克制,面对市场波动则同步收缩——顺风时稳定性增强,逆风时脆弱性加剧。
美国证监会(SEC)前主席盖里·根斯勒(Gary Gensler)多次提醒:AI可能是下一次金融危机的触发点。
04
尾声:阿尔法礼赞
纯粹的投机者,是将那些“可被学习的偶然性”沉淀为工艺的人。
在普涨的年份里,beta托起所有船只,真正的区别却来自那条与大盘走势“正交”alpha线,它由纪律、检验与时间共同维系。
AI让这门手艺变得更为锋利。后悔最小化、凯利分配、在线学习与执行联动,将“直觉”压缩为算式,把“感觉”转化为仓位。它的优势在于不为人情所动、不为叙事所惑,只对数据负责。
然而,风险也随之变形:当太多模型读取同一批数据、采用相似的目标函数、运行在同一套基础设施上,市场会变得更同步,也更脆弱——顺风时更稳,逆风时更易断裂。效率与脆弱,往往是一体两面。