

“警惕三月节。”是的,一年一度的时刻终于到了:大学篮球的皇帝们必须小心了,以免被低顺位的种子选手击败。
3月15日之前,世界各地数百万人填好了他们的疯狂三月赛程表。2017年,ESPN收到了创纪录的1880万个赛程表。
完美赛程表的第一步是正确预测第一轮。不幸的是,我们大多数人都无法预测未来。去年,在第一轮比赛结束后,只有提交的164个赛程表是完美的——不到0.001%。
许多赛程表在低顺位球队爆冷击败高顺位球队时被“打爆”。自1985年参赛队伍扩展到64支以来,平均每年至少发生八场冷门比赛。如果你想赢得你的赛程表竞猜,你最好能预测出至少几个冷门。
我们是俄亥俄州立大学的两名数学博士候选人,对数据科学和篮球充满热情。今年,我们决定创建一个计算机程序,利用数学方法来预测第一轮的冷门。如果我们是对的,那么使用我们程序预测的赛程表,在第一轮的表现应该会优于平均水平。
有缺陷的人类
要确定第一轮中哪些比赛将出现冷门并不容易。
假设你必须在10号种子和7号种子之间做出选择。10号种子在其过去的三个参赛经历中爆冷赢了三次,甚至有一次打入了四强。而7号种子是一支几乎没有受到全国关注的球队;普通球迷可能从未听说过他们。你会选择哪一个?
如果你在2017年选择了10号种子,你将选择维吉尼亚联邦大学对阵加州圣玛丽学院——而你会是错的。由于一种叫做“近因效应”的决策偏差,人类可能会被诱导使用他们最近的观察来做决定。
近因效应只是可能影响人们选择过程的众多偏差之一,还有很多其他的。也许你偏爱你的家乡球队,或者你认同某个球员,并极度希望他或她成功。所有这些都会以可能负面的方式影响你的赛程表。即使是经验丰富的专业人士也会陷入这些陷阱。
模型化冷门
机器学习可以防御这些陷阱。
在机器学习中,统计学家、数学家和计算机科学家通过让机器“学习”历史数据来训练它做出预测。这种方法已经被应用于许多不同的领域,包括营销、医学和体育。
机器学习技术可以比作一个黑箱。首先,你将历史数据输入算法,基本上是设置黑箱的刻度盘。一旦设置校准好,算法就可以读取新数据,将其与历史数据进行比较,然后输出其预测。

在机器学习中,有各种各样的黑箱可供选择。对于我们的疯狂三月项目,我们想要的是被称为分类算法的黑箱。这些算法可以帮助我们确定一场比赛是否应该被归类为冷门,通过提供冷门的概率,或者明确地将一场比赛归类为冷门。
我们的程序使用了许多流行的分类算法,包括逻辑回归、随机森林模型和k近邻算法。每种方法就像是同一台机器的不同“品牌”;它们在内部工作方式上就像福特和丰田一样不同,但执行的是相同的分类任务。每种算法或黑箱都有自己对冷门概率的预测。
我们使用了2001年至2017年所有第一轮比赛的数据来设置我们的黑箱的刻度盘。当我们用2017年的第一轮数据测试我们的一种算法时,它的成功率约为75%。这让我们相信,分析历史数据,而不是仅仅相信我们的直觉,可以带来更准确的冷门预测,从而获得更好的整体赛程表。
冷门概率
对于2018年的疯狂三月,三个机器学习模型尝试预测第一轮是否会出现冷门。百分比表示比赛结果是低顺位球队击败高顺位球队的概率。
比赛对阵 | 高顺位 | 低顺位 | 模型 A | 模型 B | 模型 C | 实际比赛结果 |
---|---|---|---|---|---|---|
1号 vs 16号 | 弗吉尼亚 | UMBC | 2.81% | 10% | 不是冷门 | 冷门 |
8号 vs 9号 | 克瑞顿 | 堪萨斯州立 | 30.69% | 10% | 不是冷门 | 不是冷门 |
5号 vs 12号 | 肯塔基 | 戴维森 | 26.07% | 60% | 冷门 | 不是冷门 |
4号 vs 13号 | 亚利桑那 | 布法罗 | 23.46% | 60% | 不是冷门 | 冷门 |
6号 vs 11号 | 迈阿密(佛罗里达) | 芝加哥洛约拉 | 31.65% | 10% | 不是冷门 | 冷门 |
3号 vs 14号 | 田纳西 | 赖特州立 | 11.03% | 0% | 不是冷门 | 不是冷门 |
7号 vs 10号 | 内华达州 | 德克萨斯州 | 40.76% | 70% | 不是冷门 | 不是冷门 |
2号 vs 15号 | 辛辛那提 | 乔治亚州立 | 9.96% | 50% | 不是冷门 | 不是冷门 |
1号 vs 16号 | 泽维尔 | 德州南 | 8.17% | 0% | 不是冷门 | 不是冷门 |
8号 vs 9号 | 密苏里 | 佛罗里达州立 | 56.17% | 40% | 冷门 | 冷门 |
5号 vs 12号 | 俄亥俄州立 | 南达科他州立 | 17.86% | 10% | 冷门 | 不是冷门 |
4号 vs 13号 | 冈萨加 | 北卡格林斯伯勒 | 11.91% | 40% | 不是冷门 | 不是冷门 |
6号 vs 11号 | 休斯顿 | 圣迭戈州立 | 33.6% | 50% | 冷门 | 不是冷门 |
3号 vs 14号 | 密歇根 | 蒙大拿 | 4.91% | 20% | 不是冷门 | 不是冷门 |
7号 vs 10号 | 德克萨斯农工 | 普罗维登斯 | 42.96% | 10% | 不是冷门 | 不是冷门 |
2号 vs 15号 | 北卡 | 利普斯康布 | 6.38% | 10% | 不是冷门 | 不是冷门 |
1号 vs 16号 | 维拉诺瓦 | 拉德福德 | 2.58% | 40% | 不是冷门 | 不是冷门 |
8号 vs 9号 | 弗吉尼亚理工 | 阿拉巴马 | 42.82% | 40% | 冷门 | 冷门 |
5号 vs 12号 | WVU | 莫瑞州立 | 9.88% | 10% | 不是冷门 | 不是冷门 |
4号 vs 13号 | 威奇塔州立 | 马歇尔 | 18.59% | 20% | 不是冷门 | 冷门 |
6号 vs 11号 | 佛罗里达 | 圣博纳文图拉 | 14.53% | 40% | 不是冷门 | 不是冷门 |
3号 vs 14号 | 德克萨斯理工 | 斯蒂芬·F·奥斯汀 | 7.97% | 0% | 不是冷门 | 不是冷门 |
7号 vs 10号 | 阿肯色 | 巴特勒 | 33.29% | 20% | 不是冷门 | 冷门 |
2号 vs 15号 | 普渡 | 加州州立大学富勒顿分校 | 4.07% | 0% | 不是冷门 | 不是冷门 |
1号 vs 16号 | 堪萨斯 | 宾夕法尼亚大学 | 5.91% | 0% | 不是冷门 | 不是冷门 |
8号 vs 9号 | 西顿霍尔 | 北卡州立 | 36.80% | 40% | 不是冷门 | 不是冷门 |
5号 vs 12号 | 克莱姆森 | 新墨西哥 | 22.93% | 40% | 不是冷门 | 不是冷门 |
4号 vs 13号 | 奥本 | 查尔斯顿 | 16.51% | 30% | 不是冷门 | 不是冷门 |
6号 vs 11号 | TCU | 雪城 | 28.83% | 10% | 不是冷门 | 冷门 |
3号 vs 14号 | 密歇根州立 | 巴克内尔 | 7.39% | 20% | 不是冷门 | 不是冷门 |
7号 vs 10号 | 罗德岛 | 俄克拉荷马 | 59% | 40% | 冷门 | 不是冷门 |
2号 vs 15号 | 杜克 | 艾奥纳 | 5.35% | 10% | 不是冷门 | 不是冷门 |
模型 A:逻辑回归冷门概率
模型 B:随机森林冷门概率
模型 C:K近邻分类
图表:Matthew Osborne 和 Kevin Nowland,The Conversation,CC-BY-ND 获取数据
这些黑箱比人类直觉有什么优势?首先,机器可以在几秒钟内识别出2001-2017年所有数据的模式。更重要的是,由于机器仅依赖数据,它们可能不太容易受到人类心理偏差的影响。
这并不是说机器学习会给我们带来完美的赛程表。即使黑箱绕过了人类偏见,它也不是免疫错误的。结果取决于历史数据。例如,如果一个1号种子在第一轮输了,我们的模型可能不会预测到,因为这种情况以前从未发生过。
此外,机器学习算法在有成千上万甚至数百万个样本时效果最好。自2001年以来,总共只有544场疯狂三月第一轮比赛,所以我们的算法无法准确预测所有冷门。正如篮球专家Jalen Rose所说,我们的输出应该作为工具,结合你的专业知识——以及运气!——来选择正确的比赛。
机器学习的疯狂?
我们不是第一个将机器学习应用于疯狂三月的人,也不会是最后一个。事实上,机器学习技术可能很快就会成为让你的赛程表具有竞争力的必要条件。
你不需要数学学位来使用机器学习——尽管这对我们有帮助。很快,机器学习可能会比以往任何时候都更容易获得。有兴趣的人可以在线查看我们的模型。欢迎探索我们的算法,甚至提出你自己的更好方法。
Matthew Osborne是数学博士候选人,Kevin Nowland是俄亥俄州立大学数学博士候选人。本文最初发表于The Conversation。
