本文最初发表于 Knowable Magazine。
每年,在超级碗结束后不久,美国最优秀的大学橄榄球运动员会前往印第安纳波利斯。这是一种春季的仪式,就像候鸟迁徙一样。他们的目的地是联合测试营 (Combine),这是一个为期一周的活动,国家橄榄球联盟 (NFL) 的球队在那里评估人才,以确定他们在即将到来的 NFL 选秀中将选择谁。
在离体育场不远的一个会议中心宴会厅里,另一个“联合测试营”正在进行。这里的重点不是 40 码冲刺,而是六分钟的研究展示。参赛者不是体育明星,而是数据科学家,他们前来参加大数据碗 (Big Data Bowl) 的决赛。这项比赛由 NFL 于 2018 年发起,旨在挑战研究团队将分析和人工智能工具应用于橄榄球数据。
在过去的几年里,分析技术使 NFL 球队能够以前所未有的方式评估球员——例如,评估防守球员创造擒抱机会的能力,而不仅仅是完成的擒抱。教练们使用这些指标来简化比赛准备。球迷、投注者和博彩公司也渴望获得 NFL 所称的“下一代统计数据”(Next Gen Stats) 所提供的见解。
正如他们的球员同行一样,大数据碗的参赛者也可能被橄榄球球队选中。NFL 足球数据与分析高级总监 Mike Lopez 表示,约有 40 人被 20 支球队聘用。另一些人则加入了 Zelus Analytics、StatsBomb 和 Telemetry Sports 等公司,这些公司为 NFL 球队和其他体育团队提供数据和服务。(Zelus Analytics 的数据科学家 Stephanie Kovalchik 在 2023 年的《年度统计学评论》(Annual Review of Statistics and Its Application) 中描述了相同的技术如何应用于不同的体育项目。)
2024 年大数据碗比赛收到了 300 多个参赛作品,最终筛选出五个决赛队伍受邀前往印第安纳波利斯。卡内基·梅隆大学 (Carnegie Mellon University) 的统计学家、今年决赛选手之一的 Ron Yurko 表示:“这里有学者、行业专业人士、学生,以及学生和教练之间的合作。”目标是获得“具有橄榄球意义”的见解。
追踪每一次移动
自 2014 年起,NFL 球员的肩垫中就植入了芯片。每秒十次,该芯片会记录球员的位置、方向、速度和加速度。Lopez 表示:“橄榄球中的下一代统计数据意味着球员追踪。”自 2017 年以来,橄榄球中也植入了类似的芯片,自 2018 年以来,所有球队都可以获取所有数据。
但这只是其中的一部分。当今统计数据真正与众不同之处在于其分析方式。目标不仅是了解发生了什么,还了解为什么。为什么这次跑动只推进了三码,而另一次推进了 88 码并得分?在此过程中,下一代统计数据首次能够量化那些从不触球的默默无闻球员的贡献,例如那位为跑球手创造了 88 码达阵机会的阻挡者。
今年的决赛选手之一 Katherine Dai 表示,2024 年大数据碗的比赛研究采用了两种互补的方法。分析通常使用人类推导的公式从数据中提取有意义的指标。相比之下,机器学习——即带来 ChatGPT 等生成式 AI 的方法——训练计算机找出最具预测性的特征。
Dai 说,如果一个指标只是记录发生了什么,那它很可能是分析。如果它依赖于预测或对可能发生情况的概率,那它很可能是机器学习。
当 NFL 聘用 Lopez 时,他曾是纽约州斯基德莫尔学院 (Skidmore College) 的统计学教授,也是一名大学橄榄球运动员,他在面试时向他们推销了大数据碗的想法,并承诺,就像 1989 年的电影《梦幻之地》(Field of Dreams) 中所说的那样,“如果你把数据放出来,分析师们就会到来。”但在第一次比赛的提交截止日期前三个小时,只有三份参赛作品提交,他开始感到紧张。“然后它们开始蜂拥而至,”他说——从晚上 9 点到午夜有 100 份。“这对我是个教训,让我了解数据科学家是如何工作的。”
从那以后,每年的比赛都有一个特定的主题。例如,在 2020 年,跟踪数据被用来预测在比赛的任何瞬间,基于 22 名球员的位置和速度,跑球所期望的码数,这是一项非常适合机器学习的任务。
获胜者是两位来自奥地利的データ科学者 Philipp Singer 和 Dmitry Gordeev,他们对美式橄榄球的了解仅限于基础知识。他们都是“计算机比赛的特级大师”,他们开发了一种神经网络,这是一种常见的机器学习算法,远远超越了其他参赛作品。
Singer 和 Gordeev 的算法被用于几项新的下一代统计数据中:期望跑球码数、超出预期的跑球码数(实际码数与预测码数的差值)、首攻概率和达阵概率。这些统计数据在六个月后首次亮相全国电视。
赢得胜利
如果要在 2024 年的获胜者身上下注,Yurko 的团队可能是一个明智的选择。在 NFL 对此产生兴趣之前,他就一直在从事橄榄球分析工作。2017 年,Yurko 和他的同事们提出了一种估算橄榄球运动员 WAR(Wins Above Replacement,替代球员胜场数)的技术,该技术被定义为一个特定球员相比于普通替代球员所创造的胜场数。(之所以称为“分数”,是因为只有一部分胜利功劳被归于该球员。)
在棒球领域,WAR 在 20 多年来一直是重要的衡量标准,但将其推广到橄榄球领域却并不容易。Yurko 在《体育定量分析杂志》(Journal of Quantitative Analysis in Sports) 上发表的文章,启发了首届大数据碗的获胜者、现任克利夫兰布朗队 (Cleveland Browns) 的首席数据科学家 Nate Sterken,投身橄榄球分析。
Yurko 曾是大数据碗的评委,但自从加入卡内基·梅隆大学任教后,他就停止了评判,因为他说:“我希望我的学生能赢。”事实上,他的学生们进入了今年五个决赛队伍中的两个,其中一名学生 Quang Nguyen 是连续第二年入围决赛。
2024 年的主题是擒抱,Yurko 的团队利用跟踪数据计算了基于物理学的分数擒抱衡量标准。在确定跑球手的前进动量显着下降时,计算机识别附近的防守球员并相应地分配功劳。例如,如果跑球手的动量下降 50% 时有两名防守球员在附近,那么他们每人将获得 25% 的最终擒抱功劳。
分数擒抱指标突出了进攻线球员的贡献,他们通常能减缓跑球手的速度,但很少能完成擒抱。这些进攻线球员(或他们的经纪人)可以利用这个统计数据来协商薪资。
但 Yurko 的团队并未获胜。取而代之的是,Dai、Matthew Chang、Daniel Jiang 和 Harvey Cheng 获得了胜利,并赢得了 25,000 美元的奖金。其中三名数据科学家曾在普林斯顿大学 (Princeton) 读研究生时认识。没有人参加过编码比赛。“我们开玩笑说,这是个观看橄榄球比赛的好借口,”Dai 说。他们都没有从事过体育分析工作,但她补充说,“我们对此持开放态度。”
该团队最初试图预测任何时刻在一秒内发生擒抱的概率,但使用神经网络的三个算法不够精确。因此,团队转向了决策树,这是另一种众所周知的机器学习方法,并取得了突破。擒抱的预测得到了改进,而且团队还能识别近距离错失的机会。
在随时间推移绘制多名防守球员在同一场比赛中进行擒抱的概率图后,Chang 注意到了峰值和谷值。与比赛视频进行比较后发现,峰值与有人错失擒抱的情况相符。“这归功于 Matt,”Dai 说。
这促使该团队提出了一次未成功擒抱的可量化定义:当一名防守球员在半秒以上的时间里进行擒抱的概率超过 75%,然后降至 75% 以下,并且他在下一秒内没有完成擒抱,也没有他的队友完成擒抱时,即发生一次未成功擒抱。这是一个简单的定义,但关键在于计算概率,这取决于机器学习。
所有这些指标仍然有改进的空间。StatsBomb 公司美式橄榄球分析主管 Matt Edwards 指出,两个团队都根据与跑球手的距离来评估擒抱,而不是实际接触。这是跟踪数据的局限性;芯片无法分辨球员是否接触。人工观看比赛视频的传统方法可以做到这一点。
尽管芯片数据对于大学球员来说不可用,但一些球队将在 4 月 25 日开始的下一届 NFL 选秀中,考虑从视频中获取的跟踪数据以及新的分析结果。
Edwards 指出了洛杉矶公羊队 (Los Angeles Rams)。公羊队没有依赖球员在 40 码冲刺和其他无法模拟实际比赛情况的联合测试营活动中的表现,而是只关注跟踪数据。“你希望知道他起跑的速度有多快,”Edwards 说。“当球在空中时,他的接近速度和反应时间是多少?这些都是橄榄球特有的技能。”
本文最初发表于 Knowable Magazine,这是一个独立的、来自《年鉴评论》的新闻报道。注册 时事通讯。