从爱尔兰最大的博彩公司那里学到的四条关于数据经验

你是否也在押注下一任教皇的名字?我们与 Paddy Power(必发)进行了交流,了解预测数据模型如何帮助他们为每周高达 60,000 多个的博彩项目设定赔率。

在爱尔兰最大的博彩公司 Paddy Power,量化分析师和风险分析师团队每周会为 12,000 到 15,000 个事件设定赔率——从赛马和其他体育赛事,到猜测碧昂丝未出生孩子的名字。在这些事件中,有 60,000 到 70,000 个单独的投注,或称“市场”。每一个市场都需要一套赔率——某种基于可用数据的概率计算,用以衡量特定结果发生的可能性。但是,博彩公司如何知道哪些数据是好的,哪些数据是坏的呢?它如何为预测系统建立保障措施,以免自己遭受损失?

数据时代的根本信条是:更多的数据加上更强的计算能力等于更清晰的未来结果预测图景。这样的预测模型已经带来了更好的天气预报、更具盈利性(有时也更危险)的金融模型、更优化的能源勘探、更高效的执法——等等,总有人在分析数据,试图窥探未来。

Paddy Power 的一些事件有大量具有高度预测价值的数据支持,例如赛马的过往表现和血统。而其他事件则极其独特(例如碧昂丝孩子的名字),令人惊讶的是,根本不存在对其有用的预测数据。

无论一个事件是数据丰富还是数据匮乏,博彩公众仍然期望 Paddy Power 能够给出赔率。我们联系了该公司量化分析主管 Rob Reck 和风险主管 Dermot Golden(我们从未听过一个更适合爱尔兰博彩公司名字的了),与他们谈论信息偏差、数据中的数据以及信息技术的预测能力。以下是我们从两位每天都在为他们的业务产生数百万个细微数据更新的从业者那里学到的四点关于数据的经验。

获取数据的来源至关重要

博彩很大程度上是关于找出事件最可能的结果,确定该结果的可能性有多大,然后根据自己的信心建立一个缓冲。数据质量是关键,无论你是在预测哪个城市将迎来最白的圣诞节,还是哪里将发生下一次 major volcanic eruption(Paddy Power 对两者都设盘),你的数据来源都至关重要。

Golden 说:“如果你能获得大量的统计数据进行分析,你从中获得的价值将远高于听取某人关于火山何时可能爆发的看法。如果我们自己进行数据分析,我们会感到更加安心,而不是听取三个基于混沌数学和三个不同气象学家解读的不同天气预报。”

这与你试图预测的结果类型以及所需数据是否实际存在有关。

Reck 说:“如果是我们自己的数据,我们非常满意。如果是专业机构编制的数据,我们通常也很满意。但有时,你不得不依赖业余爱好者或仅仅对某件事感兴趣的人维护的数据。而你无法对此抱有极大的信心。尽管这是你所拥有的一切,但你就是无法对其抱有极大的信心。”

这是另一种说法,即结果的好坏取决于其输入。更好的数据带来信心。

数据流向有钱的地方,催生更多数据

Golden 说:“存在一种权衡。你可以投资于数据,也可以投资于分析,但你必须与周转额进行平衡。在橄榄球世界杯决赛期间,你可能会产生数十万(的投注),而在一个电视节目上,你可能会产生数万。你必须在周六下午 3 点的足球比赛和周六晚上 8 点的“X Factor”之间进行平衡。足球交易员远多于新奇市场交易员。所以我们对足球的分析远多于对新奇市场的分析。”

换句话说,数据往往来源于那些存在某种感知优势的地方。而且,在数据已经丰富且信心较高的领域,通常也存在优势——或者至少是感知到的优势。

“一旦涉及到投注这数万个市场的细节,就是模型和技术的结合。但重大决策仍然是由坐在那里思考‘这匹马会赢吗?联队能赢吗?’的人做出的。”在博彩业和广阔世界中,这种循环可能是一件好事。以人类基因组为例。一旦它被最终测序,研究人员就有了第一个真正可用的基因组数据,创新就开始驱动突破,然后驱动投资,驱动更多研究和数据,再驱动进一步的创新和突破。这个循环仍在自我驱动,随着基因组数据的不断增长而加速。

但这也会导致数据的不均衡分布。人类每天产生大约两艾字节的数字数据,然而在某些领域数据却非常丰富(例如体育统计数据),而在其他领域数据却很稀缺。

数据中蕴含数据

当硬数据稀缺时,博彩公司不得不利用他们所能获得的一切。有时是某种专家共识或主观意见的平均值。但他们也寻求群众的智慧。例如,Paddy Power 在“X Factor”这个类似“美国偶像”的歌唱比赛节目上经营着一笔不错的生意,该节目中观众通过短信为他们喜欢的选手投票。在这种情况下,为预测模型提供数据的信息往往就蕴含在博彩本身中。

Golden 说:“当你看到投注的涌入和资金的流动方式时,就会发现那些投票的观众和下注的人是同一群体。下注的人就是那些对节目足够感兴趣以至于会发短信的人。所以我需要做出反应。我需要利用群众的智慧。”

这带来了另一个问题——提供数据的同一来源也在影响事件的结果。但对 Paddy Power 来说,这也是影响他们设定赔率结果的次级数据。它是信息中的信息,而在缺乏硬数据的情况下——尤其是在涉及主观、流动、受人类影响的事件,而不是像地震或天气那样更固定、随机或科学的事件时——这种数据中的数据可能就是最有信息量的东西。

Golden 说:“数据越弱,我们就需要留出越大的利润空间。然后我们会关注资金流向,因为资金中蕴含着信息。事件的类型会告诉你这些信息的重要性。如果是电视节目,它就非常有价值。如果是火山爆发,那就没有那么大的价值。我们可以将足球的利润率精确到个位数。对于像碧昂丝孩子的名字这样的事情,我们真的不知道会走向何方。所以对于这些事件,我们会密切关注资金流向。如果一位住在洛杉矶的妇科医生开始对此进行投注,我们会非常感兴趣。”

对于总统大选这类事件也同样如此。对于这类高周转率的事件,Paddy Power 会委托进行市场研究,以试图更好地掌握可能的结果。但有时,Paddy Power 自身的赔率也可能成为影响公众舆论的因素。Golden 说:

“我们有大量的周转量,所以很多人将我们视为价格指南,用以衡量某人当选的可能性,因为我们对实际情况有很好的掌握。这也是群众的智慧。Paddy Power 发布的赔率中蕴含着信息。”

Reck 说:“民意调查每三到五天发布一次,但 Paddy Power 的赔率每天都会发布。很多人会参考这些赔率,尤其是记者,并从中推断出任何候选人的可能性。”

当记者或分析师参考 Paddy Power 的指导并将其纳入报道时,他们实际上可能会促使公众舆论朝着 Paddy Power 预测的方向倾斜。当然,当人们下注并投票给同一位候选人时,他们与那些下注但又发短信投票的“X Factor”粉丝没有区别。这些数据中蕴含着关于选民情绪和政治气候的有用信息,可以为未来的预测提供依据。

技术只能做你告诉它做的事情

Reck 说:“我们在信息技术方面进行了巨额投资。这是一项非常密集的信息技术业务。我们通常都是前银行家,所以我们看待技术的方式与金融服务行业的看法相同,即它需要多么实时以及它如何支持我们的业务。它不仅仅是附加项,而是我们所做事情的有机组成部分。”

但是,世界上所有的预测算法和超级计算机都无法真正看到未来。数据就是数据,没有任何黄金算法能将其转化为明确的未来结果图景。

Golden 说:“技术只能做你告诉它做的事情。这 realmente 是关于你的想法以及你如何解读数据,而这正是我们认为自己做得非常好的地方。我们这个组织与技术紧密相连。所以我们对其进行大量投资,这就是我们的运作方式。”

Reck 补充道:“但重大的方向性决策仍然是直觉。一旦涉及到投注这数万个市场的细节,就是模型和技术的结合。但重大决策仍然是由坐在那里思考‘这匹马会赢吗?联队能赢吗?’的人做出的。重大决策是由个人做出的。成千上万的微小决策是由能够实时实施它们的算法和技术做出的。在一个人对某支球队获胜的几率比市场预期略高做出重大判断后,很多事情都会自动发生。”

换句话说,人类的决策是另一种形式的数据,最终它们往往是最重要的。关于如何最好地解读数据以及如何最好地模拟事件的想法,比技术本身更能驱动业务,而技术通常是围绕一套人类输入量身定制的。算法可以在眨眼之间做出成千上万个微小的决定。但首先得有人告诉它们去做。

 

更多优惠、评测和购买指南

 
© .