人工智能可以帮助预测疯狂三月中的冷门，但远非完美

“警惕三月节。”是的，一年一度的时刻终于到了：大学篮球的皇帝们必须小心了，以免被低顺位的种子选手击败。

3月15日之前，世界各地数百万人填好了他们的疯狂三月赛程表。2017年，ESPN收到了创纪录的 1880万个赛程表。

完美赛程表的第一步是正确预测第一轮。不幸的是，我们大多数人都无法预测未来。去年，在第一轮比赛结束后，只有提交的164个赛程表是完美的——不到0.001%。

许多赛程表在低顺位球队爆冷击败高顺位球队时被“打爆”。自1985年参赛队伍扩展到64支以来，平均每年至少发生八场冷门比赛。如果你想赢得你的赛程表竞猜，你最好能预测出至少几个冷门。

我们是俄亥俄州立大学的两名数学博士候选人，对数据科学和篮球充满热情。今年，我们决定创建一个计算机程序，利用数学方法来预测第一轮的冷门。如果我们是对的，那么使用我们程序预测的赛程表，在第一轮的表现应该会优于平均水平。

有缺陷的人类

要确定第一轮中哪些比赛将出现冷门并不容易。

假设你必须在10号种子和7号种子之间做出选择。10号种子在其过去的三个参赛经历中爆冷赢了三次，甚至有一次打入了四强。而7号种子是一支几乎没有受到全国关注的球队；普通球迷可能从未听说过他们。你会选择哪一个？

如果你在2017年选择了10号种子，你将选择维吉尼亚联邦大学对阵加州圣玛丽学院——而你会是错的。由于一种叫做“近因效应”的决策偏差，人类可能会被诱导使用他们最近的观察来做决定。

近因效应只是可能影响人们选择过程的众多偏差之一，还有很多其他的。也许你偏爱你的家乡球队，或者你认同某个球员，并极度希望他或她成功。所有这些都会以可能负面的方式影响你的赛程表。即使是经验丰富的专业人士也会陷入这些陷阱。

模型化冷门

机器学习可以防御这些陷阱。

在机器学习中，统计学家、数学家和计算机科学家通过让机器“学习”历史数据来训练它做出预测。这种方法已经被应用于许多不同的领域，包括营销、医学和体育。

机器学习技术可以比作一个黑箱。首先，你将历史数据输入算法，基本上是设置黑箱的刻度盘。一旦设置校准好，算法就可以读取新数据，将其与历史数据进行比较，然后输出其预测。

March Madness upset predictions — 机器学习算法的黑箱视图。Matthew Osborne, CC BY-SA

在机器学习中，有各种各样的黑箱可供选择。对于我们的疯狂三月项目，我们想要的是被称为分类算法的黑箱。这些算法可以帮助我们确定一场比赛是否应该被归类为冷门，通过提供冷门的概率，或者明确地将一场比赛归类为冷门。

我们的程序使用了许多流行的分类算法，包括逻辑回归、随机森林模型和k近邻算法。每种方法就像是同一台机器的不同“品牌”；它们在内部工作方式上就像福特和丰田一样不同，但执行的是相同的分类任务。每种算法或黑箱都有自己对冷门概率的预测。

我们使用了2001年至2017年所有第一轮比赛的数据来设置我们的黑箱的刻度盘。当我们用2017年的第一轮数据测试我们的一种算法时，它的成功率约为75%。这让我们相信，分析历史数据，而不是仅仅相信我们的直觉，可以带来更准确的冷门预测，从而获得更好的整体赛程表。

冷门概率

对于2018年的疯狂三月，三个机器学习模型尝试预测第一轮是否会出现冷门。百分比表示比赛结果是低顺位球队击败高顺位球队的概率。

比赛对阵	高顺位	低顺位	模型 A	模型 B	模型 C	实际比赛结果
1号 vs 16号	弗吉尼亚	UMBC	2.81%	10%	不是冷门	冷门
8号 vs 9号	克瑞顿	堪萨斯州立	30.69%	10%	不是冷门	不是冷门
5号 vs 12号	肯塔基	戴维森	26.07%	60%	冷门	不是冷门
4号 vs 13号	亚利桑那	布法罗	23.46%	60%	不是冷门	冷门
6号 vs 11号	迈阿密（佛罗里达）	芝加哥洛约拉	31.65%	10%	不是冷门	冷门
3号 vs 14号	田纳西	赖特州立	11.03%	0%	不是冷门	不是冷门
7号 vs 10号	内华达州	德克萨斯州	40.76%	70%	不是冷门	不是冷门
2号 vs 15号	辛辛那提	乔治亚州立	9.96%	50%	不是冷门	不是冷门
1号 vs 16号	泽维尔	德州南	8.17%	0%	不是冷门	不是冷门
8号 vs 9号	密苏里	佛罗里达州立	56.17%	40%	冷门	冷门
5号 vs 12号	俄亥俄州立	南达科他州立	17.86%	10%	冷门	不是冷门
4号 vs 13号	冈萨加	北卡格林斯伯勒	11.91%	40%	不是冷门	不是冷门
6号 vs 11号	休斯顿	圣迭戈州立	33.6%	50%	冷门	不是冷门
3号 vs 14号	密歇根	蒙大拿	4.91%	20%	不是冷门	不是冷门
7号 vs 10号	德克萨斯农工	普罗维登斯	42.96%	10%	不是冷门	不是冷门
2号 vs 15号	北卡	利普斯康布	6.38%	10%	不是冷门	不是冷门
1号 vs 16号	维拉诺瓦	拉德福德	2.58%	40%	不是冷门	不是冷门
8号 vs 9号	弗吉尼亚理工	阿拉巴马	42.82%	40%	冷门	冷门
5号 vs 12号	WVU	莫瑞州立	9.88%	10%	不是冷门	不是冷门
4号 vs 13号	威奇塔州立	马歇尔	18.59%	20%	不是冷门	冷门
6号 vs 11号	佛罗里达	圣博纳文图拉	14.53%	40%	不是冷门	不是冷门
3号 vs 14号	德克萨斯理工	斯蒂芬·F·奥斯汀	7.97%	0%	不是冷门	不是冷门
7号 vs 10号	阿肯色	巴特勒	33.29%	20%	不是冷门	冷门
2号 vs 15号	普渡	加州州立大学富勒顿分校	4.07%	0%	不是冷门	不是冷门
1号 vs 16号	堪萨斯	宾夕法尼亚大学	5.91%	0%	不是冷门	不是冷门
8号 vs 9号	西顿霍尔	北卡州立	36.80%	40%	不是冷门	不是冷门
5号 vs 12号	克莱姆森	新墨西哥	22.93%	40%	不是冷门	不是冷门
4号 vs 13号	奥本	查尔斯顿	16.51%	30%	不是冷门	不是冷门
6号 vs 11号	TCU	雪城	28.83%	10%	不是冷门	冷门
3号 vs 14号	密歇根州立	巴克内尔	7.39%	20%	不是冷门	不是冷门
7号 vs 10号	罗德岛	俄克拉荷马	59%	40%	冷门	不是冷门
2号 vs 15号	杜克	艾奥纳	5.35%	10%	不是冷门	不是冷门